Книга: Site Reliability Engineering. Надежность и безотказность как в Google
Назад: Г. Пример постмортема
Дальше: Е. Пример протокола рабочего совещания

Д. Список действий для координации запуска

Ниже приведен оригинальный список действий координации запуска от Google, датированный примерно 2005 годом, в немного сокращенном виде.

Архитектура

Набросок архитектуры, типы серверов, типы запросов от клиентов.

• Программные запросы клиентов.

Машины и дата-центры

Машины и загрузка сети, центры обработки данных, избыточность N + 2, качество обслуживания сети.

• Новые доменные имена, балансировка нагрузки DNS.

Оценки объема, пропускной способности и производительности

Оценки трафика HTTP и загрузки сети, скачок запуска, смешанный трафик, полугодовой перерыв.

• Нагрузочный тест, комплексный тест, пропускная способность одного дата-центра и максимальное время ожидания.

• Влияние на остальные сервисы, о которых мы беспокоимся больше всего.

• Производительность хранилища.

Надежность системы и преодоление отказа

Что происходит, если:

• отказывает машина, отключаются стойка данных или кластер;

• отключается сеть между двумя дата-центрами.

• Для каждого типа сервера, который обращается к другим серверам (его внутренним источникам):

• как определить отказ сервера и что в этом случае делать;

• как прекратить работу или перезапуститься, не затрагивая клиентов или пользователей.

• балансировка нагрузки, ограничение скорости, время ожидания, повторы и поведение при устранении ошибок.

• Резервное копирование/восстановление данных, аварийное восстановление.

Система мониторинга и управление серверами

Мониторинг внутреннего состояния, комплексный мониторинг поведения, управление оповещениями.

• Контроль мониторинга.

• Финансово важные оповещения и журналы.

• Советы по управлению серверами с кластерной средой.

• Не отключайте почтовые сервера, отправляя самому себе почтовые оповещения в собственном серверном коде.

Безопасность

Обзор конструкции системы безопасности, аудит защитного кода, риски спама, опознавание, SSL.

• Предпусковая доступность/контроль доступа, различные типы черных списков.

Автоматические и ручные задачи

Методы и контроль изменений для обновления серверов, данных и конфигураций.

• Процесс освобождения, повторяемые компоновки, канареечные тесты для реального трафика, поэтапные отправки кода.

Вопросы роста

Дополнительная пропускная способность, десятикратный рост, увеличение оповещений.

• Ограничение расширяемости, линейное масштабирование, аппаратное масштабирование, необходимые изменения.

• Кэширование, фрагментация/дефрагментация данных.

Внешние зависимые объекты

Сторонние системы, контроль, работа с сетью, объем трафика, скачки запуска.

• Постепенное отключение, способы избежать случайной перегрузки сторонних сервисов.

• Хорошие отношения с организационными партнерами, почтовыми системами, сервисами внутри Google.

График и планирование отправок

Жесткие дедлайны, внешние события, понедельники или пятницы.

• Стандартные рабочие процедуры для данного сервиса и для других сервисов.

Назад: Г. Пример постмортема
Дальше: Е. Пример протокола рабочего совещания