Shakespeare Sonnet++ Перегрузка: 2015-10-21
Информация об управлении сбоем: .
(Ответственный по связям поддерживает обновление сводки).
Краткая информация: поисковый сервис Shakespeare в состоянии каскадного отключения по причине нововыявленного сонета, не учтенного в поисковом индексе.
Статус: активный, сбой #465.
Командный (-ые) пункт (-ы): #shakespeare в IRC.
Иерархия управляющих (все ответственные):
• сейчас управляет инцидентом: jennifer;
• глава оперативных работников: docbrown;
• глава плановой группы: jennifer;
• ответственный по связям: jennifer;
• следующий управляющий инцидентом: не определен.
(Обновлять минимум каждые 4 часа и передавать исполняющему роль ответственного по связям.)
Подробный статус (в последний раз обновлялся 2015-10-21 в 15:28 UTC jennifer).
Критерии выхода:
• новый сонет добавлен к текстовой базе данных Shakespeare ПЛАН
• в пределах доступности (99,99 %) и периода ожидания (99 % < 100 мс) SLO для 30+ минут ПЛАН
Список ПЛАН и задокументированные ошибки:
• выполнить функцию MapReduce для переиндексирования текстовой базы данных Shakespeare ГОТОВО
• задействовать чрезвычайные резервы для привлечения дополнительной производительности ГОТОВО
• использовать потоковый накопитель для балансировки нагрузки между кластерами (баг 5554823) ПЛАН
Хронология происшествия (последние события размещаются первыми: время отображается в формате UTC)
• 2015-10-21 15:28 UTC jennifer:
• увеличение производительности в два раза в глобальном масштабе.
• 2015-10-21 15:28 UTC jennifer:
• направление всего трафика в неприоритетный кластер USA-2 и отвод трафика из других кластеров для их восстановления после каскадного отключения и одновременного развертывания большего количества задач;
• выполнение функции индекса MapReduce завершено, ожидание репликации Bigtable на все кластеры.
• 2015-10-21 15:10 UTC martym:
• добавление нового сонета к текстовой базе данных Shakespeare и запуск индекса MapReduce.
• 2015-10-21 15:04 UTC martym:
• получение текста обнаруженного нового сонета из списка рассылки shakespeare-discuss@.
• 2015-10-21 15:01 UTC docbrown:
• по причине каскадного отключения объявлен сбой.
• 2015-10-21 14:55 UTC docbrown:
• шквал оповещений, ManyHttp500s во всех кластерах.