Soms is een storing onze zorg…

Donderdag 9 maart 2017 zijn wij getroffen door de grootste storing in de geschiedenis van MeXtra. Veel klanten, zorgprofessionals en cliënten en naasten hebben hier last van gehad. We zijn hier niet trots op maar wel open over: wat is er gebeurd en wat gaan we verbeteren? De gebeurtenissen die elkaar opvolgden

[3:31 uur] De eerste indicatie dat er iets raars aan de hand was kwam ’s ochtends via onze Slack (intern communicatiemiddel dat we gebruiken): MeXtra ging voor korte tijd uit en weer aan. Dit gebeurt vaker als er updates worden gedraaid, geen reden tot paniek en netjes binnen het onderhoudsvenster

[8:18 uur] Maarten, onze lead developer, controleert de melding en komt erachter dat het certificaat op onze login-server niet vernieuwd is. Dit certificaat is wel aangevraagd maar niet (correct) op deze server geïnstalleerd. Kwestie van vervangen en het zou weer moeten werken… dachten we.

[8:20 uur] Onze noodpagina wordt door Maarten ingesteld zodat gebruikers van MeXtra zo goed mogelijk worden geïnformeerd over wat er aan de hand is. De veiligheid van gegevens is op geen enkel moment in gevaar geweest, maar aangezien dit er nogal eng uit kan zien in sommige browsers (meldingen over een onveilige site en zelfs dat de site gehackt kan zijn), hebben we eerst deze noodpagina ingesteld en zijn toen aan de slag gegaan om het certificaat te vernieuwen.

[8:26 uur] Maarten werkt hard om het nieuwe certificaat geïnstalleerd te krijgen, maar de login server reageert anders dan verwacht. Wij maken voor optimale veiligheid gebruik van een externe login-server (een dienst van Stormpath) om de identiteit van onze gebruikers vast te stellen. Op deze server hoort het certificaat te draaien en we hebben dit volgens de correcte procedure ingesteld. Toch blijven er foutemeldingen komen, soms gaat het goed, soms gaat het fout. Gevolg: MeXtra moet weer even offline worden gezet voor de nodige analyse en pogingen het certificaat correct te installeren:

[9:21 uur] Het werkt weer! Opeens lijkt het allemaal weer in orde, Maarten heeft het uitgebreid getest en hij kan weer inloggen, met het goede certificaat. Fijn, gebruikers kunnen weer met MeXtra aan de slag en krijgen geen enge meldingen meer:

[10:18 uur] Het probleem leek opgelost, maar toch blijven we meldingen krijgen via ons telefoonnummer en onze helpdesk-tool Zendesk. Er moet meer aan de hand zijn…

 

[10:40 uur] Maarten heeft het (nieuwe) probleem geanalyseerd en komt met de melding dat het soms goed gaat en soms niet. Nou is dat in de IT eigenlijk onmogelijk, het werkt of het werkt niet. We zijn gaan kijken in welke gevallen het wel of niet werkt. Nu wordt het een beetje technisch, maar hopelijk te volgen. De login-server werkt met een ‘load-balancer’ (zie schema) die het verkeer verdeelt naar ID-server A en B. Na een uitgebreid onderzoek bleek het certificaat op de ene server (A) correct te zijn doorgevoerd, terwijl op de andere server (B) het oude certificaat stond. Na inloggen werd je (zoals altijd) in beide gevallen doorgestuurd naar de MeXtra server, waarop wel een correct en geldig certificaat staat.

[11:00 uur] Maarten heeft nu alles geprobeerd in het configuratie-scherm van Stormpath waar wij de certificaten moeten instellen. Het lijkt een fout te zijn bij deze leverancier en we dienen een urgent verzoek in dit probleem verder te onderzoeken. De meldingen van gebruikers die niet kunnen inloggen blijven (uiteraard) binnen komen, kunnen we hier iets op verzinnen?

[13:00 uur] We kunnen niet de standaard noodpagina inzetten omdat inloggen dan helemaal onmogelijk wordt. Om dit op te lossen hebben we een ‘tussenpagina’ ontwikkeld en online gezet op MeXtra.nl waarop het probleem zo duidelijk mogelijk wordt uitgelegd. Tevens geven we de gebruiker de kans om het te proberen, misschien komen ze wel op de goede server? 50% kans!

 

[21:01 uur] Eindelijk bericht van Stormpath: ze hebben het opgelost en nu zijn beide ID-servers weer met elkaar ‘in-sync’, beide servers bevatten nu het goede certificaat. Na bericht van Stormpath controleert Maarten uitgebreid of het inderdaad weer werkt en verwijdert vervolgens de tussenpagina. MeXtra is nu weer volledig functioneel online, gelukkig!

En wat gebeurt er dan?

  • De betrokken techneuten schrijven in dit soort gevallen een technisch ‘incident-report’ waar deze blog op gebaseerd is. Wij schrijven van dit soort incidenten altijd een verslag ter analyse en verbetering, een werkwijze die in onze NEN7510 certificering is vastgelegd. Hieruit volgende in dit geval een tweetal verbeterpunten:
    • We hebben geleerd het verlopen van certificaten nog beter in de gaten te houden. Dit was uiteindelijk niet het grootste probleem, maar heeft wel e.e.a. in gang gezet. Een tijdige wisseling van certificaat had het probleem bij Stormpath waarschijnlijk niet voorkomen.
    • De constructie met de ID-site (load-balancer en koppeling met ID-server A en B) geeft wat ons betreft teveel storingen. Wij gaan onderzoeken of we deze inlogschermen ook in eigen beheer, op eigen servers kunnen neerzetten. De authenticatie-service zal dan nog puur op de achtergrond worden gebruikt, maar de schermen die de gebruiker ziet worden dan in MeXtra opgenomen, hetgeen de fout kans aanzienlijk verkleint.

 

 

0 antwoorden

Plaats een Reactie

Meepraten?
Draag gerust bij!

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *