Verklaring van het incident van gisteravond

Written by Jerome Granados on Vrijdag 22 September 2017

Van 2:00 AM tot 09:30 AM CEST waren GoodBarber en WMaker ernstig verstoord.

Ons 5-koppige serverteam (Greg, Pierre-Laurent, Sébastien, Jérôme en Dumè) was de hele week in Parijs om nieuwe apparatuur in gebruik te nemen in een tweede datacenter, Global Switch, aan de rand van Parijs. Dit maakt deel uit van een project om onze infrastructuur uit te breiden, dat enkele maanden geleden is gestart door het Technisch team en waarover we verslag zullen uitbrengen zodra de volledige uitrol is voltooid. Deze interventie houdt geen verband met het probleem van gisteravond.

Maar paradoxaal genoeg heeft de aanwezigheid van onze technici in Parijs onze reactiecapaciteit aanzienlijk vertraagd, omdat zij tijdens het incident op weg terug waren naar Ajaccio. Bovendien moesten we, om de interventie bij Global Switch te kunnen uitvoeren, een deel van ons waarschuwingssysteem uitschakelen. Dit zorgde voor een vertraging van enkele uren bij het identificeren van de storing. Onze klanten in de Stille Oceaan meldden ons het probleem via privéberichten op Facebook en Twitter.

Tegelijkertijd met de interventie bij Global Switch voerden we een routinebezoek uit aan ons DC1-datacenter in het 19e arrondissement van Parijs. Tijdens de inspectie van een machine realiseerden we ons dat APC-21, een van de stroombeheersystemen (PDU), een storing had in het externe beheersysteem.

We bestelden nieuwe hardware bij onze leverancier en installeerden deze om APC-21 te vervangen. We hebben alle machines die van stroom werden voorzien door APC-21, met uitzondering van switch-nas11, opnieuw aangesloten op deze nieuwe hardware, APC-24.

PDU's zijn systemen die ontworpen zijn om stroom te blijven leveren aan machines, zelfs als hun beheersysteem H.S. is. Daarom hebben we switch-nas11 niet losgekoppeld van APC-21. Als we dat wel hadden gedaan, zou dat tot aanzienlijke stilstand hebben geleid. Het was uit den boze om een dergelijke operatie overhaast uit te voeren, zonder de interventie te plannen en onze gebruikers te waarschuwen.

Tijdens de nacht stopte APC-21 om een nog onbekende reden met het van stroom voorzien van switch-nas11. Toen de technicus van OVH kwam om de voeding van switch-nas11 van APC-21 naar APC-24 te verplaatsen, startte de switch niet op. Dit is een Cisco-switch. Deze apparatuur staat bekend om zijn betrouwbaarheid. We hebben nog geen verklaring voor de storing.

We vertelden de technicus dat hij een reserveswitch moest gebruiken die stand-by in de bay stond. Het installeren van deze switch verlengde de interventie omdat alle machines eerst opnieuw bedraad moesten worden. Toen de reserveswitch werd ingeschakeld, ontdekten we een probleem met twee netwerkkaarten op de hoofdserver (master sql). We moesten toen alle routingregels herschrijven. Het is zeer waarschijnlijk dat het probleem op APC-21 leidde tot de cascade van storingen op switch-nas11 en de 2 netwerkkaarten.

Sinds 9:30 zijn alle diensten weer operationeel. Als we APC-21 gisterochtend niet hadden vervangen, had de storing van gisteravond nog ernstigere gevolgen kunnen hebben. Een groot deel van het rack zou plotseling geen stroom meer hebben gehad. Dit had verschrikkelijk kunnen zijn (tijdelijk verlies van gegevens, machines buiten werking, enz.) en een nog langere downtime kunnen veroorzaken (vervanging van machines, herconfiguratie, hervatten van gegevensback-ups, enz.)

In de komende weken zullen we een extra interventie plannen om de voorraad back-upapparatuur in de baai opnieuw op te bouwen. We zullen hier ook van profiteren om te anticiperen op de vervanging van apparatuur van dezelfde generatie als die gisteravond defect was.