Дата: 2015-10-23.
Присутствующие: agoogler, clarac, docbrown, jennifer, martym.
Повестка: крупное отключение (#465), превышение бюджета ошибок.
Анализ предыдущих пунктов действий
• Утвердить Goat Teleporter для использования (ошибка 1011101):
• нелинейные показатели ускорения массы теперь удается прогнозировать, планируем добиться точного нацеливания в ближайшие несколько дней.
Обзор отключения
• Новый сонет (отключение 465):
• 1,21 миллиарда запросов потеряны из-за каскадного отключения после взаимодействия между скрытой ошибкой (утечка из дескриптора файлов в безрезультатные запросы) + отсутствие нового сонета в текстовой базе данных + беспрецедентный и неожиданный объем трафика;
• ошибка утечки дескриптора файлов устранена (ошибка 5554825), продукт обновлен;
• оценка возможности использования потокового накопителя для балансировки нагрузки (ошибка 5554823) и применения фрагментации нагрузки (ошибка 5554823) для предотвращения повторения;
• исчерпанный бюджет ошибок; заставляет остановить работу продукта на один месяц, если только docbrown не получит разрешение на исключение на основании того, что событие было странным и непредвиденным (но в этом случае одобрение маловероятно).
Срочные события
• AnnotationConsistencyTooEventual: был объектом вызова пять раз за неделю, вероятно, из-за межрегиональной задержки репликации межу Bigtables:
• расследование еще в процессе, см. ошибку 4821600;
• скорого решения не ожидается, решено поднять допустимый порог целостности, чтобы уменьшить количество оповещений, на которые пока невозможно ответить.
Несрочные события
• Нет.
Контроль изменений и/или периодов тишины
• AnnotationConsistencyTooEventual, допустимый порог задержки поднят от 60 до 180 секунд, см. ошибку 4821600; ПЛАН (martym).
Запланированные изменения в продукции
• Кластер USA-1 отключен для обслуживания в период между 2015-10-29 и 2015-11-02:
• реагирования не требуется, трафик автоматически перенаправится в другие кластеры региона.
Ресурсы
• Заимствованы ресурсы для реагирования на инцидент sonnet++, будут привлечены дополнительные экземпляры серверов, ресурсы будут возвращены на следующей неделе.
• Использование на 60 % ЦП, 75 % ОП, 44 % диска (увеличение с 40, 70, 40 % на прошлой неделе).
Параметры ключевых сервисов
• ОК 99 % время ожидания 88 мс < 100 мс целевой показатель SLO (контроль 30 дней).
• ПЛОХО доступность: 86,95 % < 99,99 % целевой показатель SLO (контроль 30 дней).
Дискуссия/Обновление по проектам
• Запуск проекта Moliere в течение 2 недель.
Новые меры к принятию
• ПЛАН (martym): поднять порог AnnotationConsistencyTooEventual.
• ПЛАН (docbrown): вернуть количество экземпляров к обычному показателю и возвратить ресурсы.