Книга: Site Reliability Engineering. Надежность и безотказность как в Google
Назад: Б. Практические рекомендации для сервисов в промышленной эксплуатации
Дальше: Г. Пример постмортема

В. Пример документа о происшествиях

Shakespeare Sonnet++ Перегрузка: 2015-10-21

Информация об управлении сбоем: .

(Ответственный по связям поддерживает обновление сводки).

Краткая информация: поисковый сервис Shakespeare в состоянии каскадного отключения по причине нововыявленного сонета, не учтенного в поисковом индексе.

Статус: активный, сбой #465.

Командный (-ые) пункт (-ы): #shakespeare в IRC.

Иерархия управляющих (все ответственные):

сейчас управляет инцидентом: jennifer;

• глава оперативных работников: docbrown;

• глава плановой группы: jennifer;

• ответственный по связям: jennifer;

• следующий управляющий инцидентом: не определен.

(Обновлять минимум каждые 4 часа и передавать исполняющему роль ответственного по связям.)

Подробный статус (в последний раз обновлялся 2015-10-21 в 15:28 UTC jennifer).

Критерии выхода:

новый сонет добавлен к текстовой базе данных Shakespeare ПЛАН

• в пределах доступности (99,99 %) и периода ожидания (99 % < 100 мс) SLO для 30+ минут ПЛАН

Список ПЛАН и задокументированные ошибки:

• выполнить функцию MapReduce для переиндексирования текстовой базы данных Shakespeare ГОТОВО

• задействовать чрезвычайные резервы для привлечения дополнительной производительности ГОТОВО

• использовать потоковый накопитель для балансировки нагрузки между кластерами (баг 5554823) ПЛАН

Хронология происшествия (последние события размещаются первыми: время отображается в формате UTC)

2015-10-21 15:28 UTC jennifer:

• увеличение производительности в два раза в глобальном масштабе.

• 2015-10-21 15:28 UTC jennifer:

• направление всего трафика в неприоритетный кластер USA-2 и отвод трафика из других кластеров для их восстановления после каскадного отключения и одновременного развертывания большего количества задач;

• выполнение функции индекса MapReduce завершено, ожидание репликации Bigtable на все кластеры.

• 2015-10-21 15:10 UTC martym:

• добавление нового сонета к текстовой базе данных Shakespeare и запуск индекса MapReduce.

• 2015-10-21 15:04 UTC martym:

• получение текста обнаруженного нового сонета из списка рассылки shakespeare-discuss@.

• 2015-10-21 15:01 UTC docbrown:

• по причине каскадного отключения объявлен сбой.

• 2015-10-21 14:55 UTC docbrown:

• шквал оповещений, ManyHttp500s во всех кластерах.

Назад: Б. Практические рекомендации для сервисов в промышленной эксплуатации
Дальше: Г. Пример постмортема