Книга: Site Reliability Engineering. Надежность и безотказность как в Google
Назад: Д. Список действий для координации запуска
Дальше: Об авторах

Е. Пример протокола рабочего совещания

Дата: 2015-10-23.

Присутствующие: agoogler, clarac, docbrown, jennifer, martym.

Повестка: крупное отключение (#465), превышение бюджета ошибок.

Анализ предыдущих пунктов действий

Утвердить Goat Teleporter для использования (ошибка 1011101):

• нелинейные показатели ускорения массы теперь удается прогнозировать, планируем добиться точного нацеливания в ближайшие несколько дней.

Обзор отключения

Новый сонет (отключение 465):

• 1,21 миллиарда запросов потеряны из-за каскадного отключения после взаимодействия между скрытой ошибкой (утечка из дескриптора файлов в безрезультатные запросы) + отсутствие нового сонета в текстовой базе данных + беспрецедентный и неожиданный объем трафика;

• ошибка утечки дескриптора файлов устранена (ошибка 5554825), продукт обновлен;

• оценка возможности использования потокового накопителя для балансировки нагрузки (ошибка 5554823) и применения фрагментации нагрузки (ошибка 5554823) для предотвращения повторения;

• исчерпанный бюджет ошибок; заставляет остановить работу продукта на один месяц, если только docbrown не получит разрешение на исключение на основании того, что событие было странным и непредвиденным (но в этом случае одобрение маловероятно).

Срочные события

AnnotationConsistencyTooEventual: был объектом вызова пять раз за неделю, вероятно, из-за межрегиональной задержки репликации межу Bigtables:

• расследование еще в процессе, см. ошибку 4821600;

• скорого решения не ожидается, решено поднять допустимый порог целостности, чтобы уменьшить количество оповещений, на которые пока невозможно ответить.

Несрочные события

Нет.

Контроль изменений и/или периодов тишины

AnnotationConsistencyTooEventual, допустимый порог задержки поднят от 60 до 180 секунд, см. ошибку 4821600; ПЛАН (martym).

Запланированные изменения в продукции

Кластер USA-1 отключен для обслуживания в период между 2015-10-29 и 2015-11-02:

• реагирования не требуется, трафик автоматически перенаправится в другие кластеры региона.

Ресурсы

Заимствованы ресурсы для реагирования на инцидент sonnet++, будут привлечены дополнительные экземпляры серверов, ресурсы будут возвращены на следующей неделе.

• Использование на 60 % ЦП, 75 % ОП, 44 % диска (увеличение с 40, 70, 40 % на прошлой неделе).

Параметры ключевых сервисов

ОК 99 % время ожидания 88 мс < 100 мс целевой показатель SLO (контроль 30 дней).

• ПЛОХО доступность: 86,95 % < 99,99 % целевой показатель SLO (контроль 30 дней).

Дискуссия/Обновление по проектам

Запуск проекта Moliere в течение 2 недель.

Новые меры к принятию

ПЛАН (martym): поднять порог AnnotationConsistencyTooEventual.

• ПЛАН (docbrown): вернуть количество экземпляров к обычному показателю и возвратить ресурсы.

Назад: Д. Список действий для координации запуска
Дальше: Об авторах