Facebook zasiahol „najhorší výpadok“ za štyri roky

Facebook sa ospravedlnil za svoj najhorší výpadok, odkedy sa stal mainstreamom, po chybe v konfigurácii, ktorá na niekoľko hodín prerušila prevádzku sociálnej siete.

Zasiahnutý Facebook

Stránka prvýkrát zlyhala v stredu a včera večer bola opäť mimo prevádzky. „Toto je najhorší výpadok, aký sme mali za viac ako štyri roky, a chceli sme sa zaň v prvom rade ospravedlniť,“ povedal Robert Johnson, riaditeľ softvérového inžinierstva. Facebook inžiniersky blog.

Toto je najhorší výpadok, ktorý sme mali za viac ako štyri roky, a chceli sme sa zaň v prvom rade ospravedlniť

„Kľúčovou chybou, ktorá spôsobila, že tento výpadok bol taký závažný, bolo nešťastné zvládnutie chybového stavu,“ vysvetlil. "Automatizovaný systém na overovanie konfiguračných hodnôt nakoniec spôsobil oveľa väčšie škody, ako opravil."

Facebook používa automatizovaný systém na kontrolu hodnôt konfigurácie uložených vo vyrovnávacej pamäti oproti trvalej kópii. Spoločnosť však zmenila tie predvolené hodnoty, ktoré systém považoval za neplatné neustále kontrolovať a znova kontrolovať, čo spôsobilo státisíce dotazov v databáze druhý.

Akonáhle boli databázy preťažené, problém sa zhoršil, pretože systém videl chybové správy ako neplatné hodnoty, čo spôsobilo, že odosielal ešte viac dotazov. "Vstúpili sme do slučky spätnej väzby, ktorá neumožnila obnoviť databázy," povedal Johnson.

„Spôsob, ako zastaviť cyklus spätnej väzby, bol dosť bolestivý – museli sme zastaviť všetku návštevnosť tohto databázového klastra, čo znamenalo vypnúť stránku,“ povedal. "Akonáhle sa obnovili databázy a bola opravená hlavná príčina, pomaly sme umožnili viac ľuďom vrátiť sa na stránku."

Johnson uviedol, že stránka je opäť v prevádzke, pričom chybný systém je vypnutý. „Skúmame nové návrhy tohto konfiguračného systému podľa vzorov iných systémov na Facebooku, ktoré sa elegantnejšie vyrovnávajú so spätnoväzbovými slučkami a prechodnými špičkami,“ povedal Johnson.