Feedback over de storing op donderdag 28/11
Written by Jerome Granados on
De diensten van GoodBarber en WMaker werden op 28 november onderbroken door een elektrisch incident. Dit incident deed zich voor op de algemene stroomvoorziening van een rack in een van de datacenters waar een deel van onze Technische infrastructuur is ondergebracht.
De service werd tijdelijk onderbroken, waardoor onze leden hinder ondervonden, en was gedeeltelijk verslechterd toen deze werd hersteld, maar er gingen geen gegevens verloren.
Diensten werken nu al meer dan 24 uur perfect normaal. Nu is het tijd voor uitleg, evaluaties en geleerde lessen, die we in dit bericht met u delen.
De service werd tijdelijk onderbroken, waardoor onze leden hinder ondervonden, en was gedeeltelijk verslechterd toen deze werd hersteld, maar er gingen geen gegevens verloren.
Diensten werken nu al meer dan 24 uur perfect normaal. Nu is het tijd voor uitleg, evaluaties en geleerde lessen, die we in dit bericht met u delen.
Details Evenementen
Gistermorgen, rond 8.30 uur Tijdkiezer in Parijs, was er een elektrische storing in de stroomvoorziening van een rack met ongeveer twintig van onze computerservers. De storing deed zich voor op de stroomtoevoerapparatuur van onze hostingprovider OVH, als onderdeel van een van onze hostingcontracten in een datacenter in Parijs.
We vroegen de technicus van OVH met spoed in te grijpen om de stroomtoevoer naar het rack te herstellen, waardoor we alle getroffen Diensten (25% van onze installatie) binnen een uur konden herstellen. Tegen 9.30 uur was alles weer normaal en werkten alle diensten weer normaal.
OVH ging er in eerste instantie van uit dat het incident het gevolg was van een probleem met een van hun UPS-systemen op bijna hetzelfde moment.
De storing veroorzaakte een onderbreking in de dienstverlening. Er gingen echter geen gegevens verloren. We dupliceren de gegevens verschillende keren, aanhoudend en op verschillende Kaart. Toch had de service niet volledig onderbroken mogen worden. Dat gebeurde wel omdat we een sessiebeheerservice hebben die niet correct failoverde naar een machine in een ander rack. Als de failover correct had gewerkt, hadden we downtime kunnen voorkomen.
Om 11.30 uur waren we bezig met het verplaatsen van een aantal diensten naar een ander rack toen zich een tweede stroomprobleem voordeed in het eerste rack. Dit probleem leidde opnieuw tot een downtime van 30 minuten. De technicus van OVH greep opnieuw met spoed in en vanaf 12.00 uur waren alle diensten weer hersteld.
Uit voorzorg gingen twee leden van het team fysiek naar het datacenter waar we het rack hebben dat door het elektrische probleem werd getroffen. Ze zijn 6 uur ter plaatse geweest om al onze apparatuur te analyseren. Alle betrokken apparatuur is minder dan een jaar oud en wordt regelmatig vervangen. We besloten om alleen HP, Cisco en APC apparatuur te gebruiken, die een bewezen staat van dienst hebben op het gebied van betrouwbaarheid.
Omdat we geen problemen met onze apparatuur hadden, spraken we met onze hostingprovider af dat hij de elektrische apparatuur die ons rack van stroom voorziet preventief zou vervangen.
Een gezamenlijke interventie met onze host vond plaats tussen 19.00 en 21.00 uur om deze apparatuur te vervangen. Dit kan een kortstondige storing hebben veroorzaakt, zonder dat de service werd onderbroken.
Ons team blijft de service nauwlettend in de gaten houden, maar er is al 24 uur geen verdere instabiliteit gemeld en alles is weer normaal.
Dit soort storingen is een van de moeilijkste scenario's om te beheren. Ons doel is dat onze architectuur dit soort incidenten en dit soort situaties kan verdragen zonder de service te onderbreken. Dit is een kans voor ons om onze systemen opnieuw te evalueren in koude omstandigheden, om de service in stand te houden zelfs als 50% van de architectuur uitvalt, en om soortgelijke situaties in de toekomst te voorkomen.
We vroegen de technicus van OVH met spoed in te grijpen om de stroomtoevoer naar het rack te herstellen, waardoor we alle getroffen Diensten (25% van onze installatie) binnen een uur konden herstellen. Tegen 9.30 uur was alles weer normaal en werkten alle diensten weer normaal.
OVH ging er in eerste instantie van uit dat het incident het gevolg was van een probleem met een van hun UPS-systemen op bijna hetzelfde moment.
De storing veroorzaakte een onderbreking in de dienstverlening. Er gingen echter geen gegevens verloren. We dupliceren de gegevens verschillende keren, aanhoudend en op verschillende Kaart. Toch had de service niet volledig onderbroken mogen worden. Dat gebeurde wel omdat we een sessiebeheerservice hebben die niet correct failoverde naar een machine in een ander rack. Als de failover correct had gewerkt, hadden we downtime kunnen voorkomen.
Om 11.30 uur waren we bezig met het verplaatsen van een aantal diensten naar een ander rack toen zich een tweede stroomprobleem voordeed in het eerste rack. Dit probleem leidde opnieuw tot een downtime van 30 minuten. De technicus van OVH greep opnieuw met spoed in en vanaf 12.00 uur waren alle diensten weer hersteld.
Uit voorzorg gingen twee leden van het team fysiek naar het datacenter waar we het rack hebben dat door het elektrische probleem werd getroffen. Ze zijn 6 uur ter plaatse geweest om al onze apparatuur te analyseren. Alle betrokken apparatuur is minder dan een jaar oud en wordt regelmatig vervangen. We besloten om alleen HP, Cisco en APC apparatuur te gebruiken, die een bewezen staat van dienst hebben op het gebied van betrouwbaarheid.
Omdat we geen problemen met onze apparatuur hadden, spraken we met onze hostingprovider af dat hij de elektrische apparatuur die ons rack van stroom voorziet preventief zou vervangen.
Een gezamenlijke interventie met onze host vond plaats tussen 19.00 en 21.00 uur om deze apparatuur te vervangen. Dit kan een kortstondige storing hebben veroorzaakt, zonder dat de service werd onderbroken.
Ons team blijft de service nauwlettend in de gaten houden, maar er is al 24 uur geen verdere instabiliteit gemeld en alles is weer normaal.
Dit soort storingen is een van de moeilijkste scenario's om te beheren. Ons doel is dat onze architectuur dit soort incidenten en dit soort situaties kan verdragen zonder de service te onderbreken. Dit is een kans voor ons om onze systemen opnieuw te evalueren in koude omstandigheden, om de service in stand te houden zelfs als 50% van de architectuur uitvalt, en om soortgelijke situaties in de toekomst te voorkomen.
VOOR MEER INFORMATIE:
- Op zoek naar een positievere Titel? Er waait een nieuwe Latijnse wind door de gangen van GoodBarber. Maak kennis met onze nieuwe medewerker, Laura! Onze nieuwe aanwinst werkt op de afdeling Marketing en zal haar kennis en expertise kunnen gebruiken om u bij uw werk te helpen. Haar ongewone carrièrepad heeft ons aan het dromen gezet, dus bij deze een tip: ook u kunt haar verhaal ontdekken!
- Net als het vinden van de Titel van een boek dat u aan het schrijven bent, is het niet altijd gemakkelijk om te weten wat u voor een persomslag moet schrijven. Maar uw werk offline promoten is essentieel. Neem ons advies aan en lees ons artikel over promotie: perscovers, dat u precieze hulp zal bieden bij uw vragen.
- Onderzoekt u vooroordelen over native applicaties? Dit is uw kans om de 4 onwaarheden over native applicaties te ontdekken. Het zit allemaal in de titel! U zult zien dat het maken van een online app eigenlijk kinderspel is.
- Afhankelijk van uw instellingen kunnen uw klanten met GoodBarber op verschillende manieren direct online betalen via uw app. Zie onze titel GoodBarber Shopping App: valuta's en betalingsgateways voor meer informatie. U zult zien dat het zo eenvoudig is dat zelfs kinderen het kunnen!
- Uw ondernemersopdracht is onderweg, maar u vraagt zich af wat er eerst komt: het Bedrijf of Mijn App? Ontdek waarom het maken van een app een essentieel onderdeel is van het opzetten van een bedrijf, en waarom het mogelijk is om een online bedrijf te starten voordat u een fysiek bedrijf start. Een goede raad: aarzel niet, ga ervoor!