페이스북, 4년 만에 최악의 정전

Facebook은 구성 오류로 몇 시간 동안 소셜 네트워킹 사이트가 다운된 후 주류가 된 이후 최악의 중단에 대해 사과했습니다.

에 의해 타격을 받은 페이스북

사이트는 수요일에 처음으로 실패했고 어젯밤에 다시 다운되었습니다. 소프트웨어 엔지니어링 담당 이사인 로버트 존슨(Robert Johnson)은 "4년 만에 발생한 최악의 중단"이라며 "먼저 사과하고 싶었다"고 말했다. Facebook 엔지니어링 블로그.

이것은 지난 4년 동안 우리가 겪은 최악의 중단이며, 먼저 그것에 대해 사과하고 싶었습니다.

"이 중단을 심각하게 만든 주요 결함은 오류 조건을 잘못 처리한 것입니다."라고 그는 설명했습니다. "구성 값을 확인하기 위한 자동화된 시스템은 수정한 것보다 훨씬 더 많은 피해를 입혔습니다."

Facebook은 자동화된 시스템을 사용하여 영구 복사본에 대해 캐시된 구성 값을 확인합니다. 그러나 회사는 시스템이 유효하지 않다고 생각하는 기본값을 변경하여 계속 확인하고 다시 확인해야 하므로 매번 데이터베이스에서 수십만 개의 쿼리가 발생했습니다. 두번째.

데이터베이스가 과부하되면 시스템이 오류 메시지를 더 잘못된 값으로 인식하여 더 많은 쿼리를 보내게 되면서 문제가 악화되었습니다. "우리는 데이터베이스 복구를 허용하지 않는 피드백 루프에 진입했습니다."라고 Johnson은 말했습니다.

"피드백 주기를 중지하는 방법은 상당히 고통스러웠습니다. 이 데이터베이스 클러스터에 대한 모든 트래픽을 중지해야 했습니다. 즉, 사이트를 종료해야 했습니다."라고 그는 말했습니다. "데이터베이스가 복구되고 근본 원인이 수정된 후 우리는 서서히 더 많은 사람들이 사이트에 다시 방문하도록 허용했습니다."

Johnson은 결함이 있는 시스템이 꺼진 상태에서 사이트가 백업되어 실행 중이라고 말했습니다. "우리는 피드백 루프와 일시적인 스파이크를 보다 우아하게 처리하는 Facebook의 다른 시스템 설계 패턴을 따라 이 구성 시스템을 위한 새로운 설계를 탐색하고 있습니다."라고 Johnson은 말했습니다.