Ниже приведен оригинальный список действий координации запуска от Google, датированный примерно 2005 годом, в немного сокращенном виде.
Архитектура
• Набросок архитектуры, типы серверов, типы запросов от клиентов.
• Программные запросы клиентов.
Машины и дата-центры
• Машины и загрузка сети, центры обработки данных, избыточность N + 2, качество обслуживания сети.
• Новые доменные имена, балансировка нагрузки DNS.
Оценки объема, пропускной способности и производительности
• Оценки трафика HTTP и загрузки сети, скачок запуска, смешанный трафик, полугодовой перерыв.
• Нагрузочный тест, комплексный тест, пропускная способность одного дата-центра и максимальное время ожидания.
• Влияние на остальные сервисы, о которых мы беспокоимся больше всего.
• Производительность хранилища.
Надежность системы и преодоление отказа
• Что происходит, если:
• отказывает машина, отключаются стойка данных или кластер;
• отключается сеть между двумя дата-центрами.
• Для каждого типа сервера, который обращается к другим серверам (его внутренним источникам):
• как определить отказ сервера и что в этом случае делать;
• как прекратить работу или перезапуститься, не затрагивая клиентов или пользователей.
• балансировка нагрузки, ограничение скорости, время ожидания, повторы и поведение при устранении ошибок.
• Резервное копирование/восстановление данных, аварийное восстановление.
Система мониторинга и управление серверами
• Мониторинг внутреннего состояния, комплексный мониторинг поведения, управление оповещениями.
• Контроль мониторинга.
• Финансово важные оповещения и журналы.
• Советы по управлению серверами с кластерной средой.
• Не отключайте почтовые сервера, отправляя самому себе почтовые оповещения в собственном серверном коде.
Безопасность
• Обзор конструкции системы безопасности, аудит защитного кода, риски спама, опознавание, SSL.
• Предпусковая доступность/контроль доступа, различные типы черных списков.
Автоматические и ручные задачи
• Методы и контроль изменений для обновления серверов, данных и конфигураций.
• Процесс освобождения, повторяемые компоновки, канареечные тесты для реального трафика, поэтапные отправки кода.
Вопросы роста
• Дополнительная пропускная способность, десятикратный рост, увеличение оповещений.
• Ограничение расширяемости, линейное масштабирование, аппаратное масштабирование, необходимые изменения.
• Кэширование, фрагментация/дефрагментация данных.
Внешние зависимые объекты
• Сторонние системы, контроль, работа с сетью, объем трафика, скачки запуска.
• Постепенное отключение, способы избежать случайной перегрузки сторонних сервисов.
• Хорошие отношения с организационными партнерами, почтовыми системами, сервисами внутри Google.
График и планирование отправок
• Жесткие дедлайны, внешние события, понедельники или пятницы.
• Стандартные рабочие процедуры для данного сервиса и для других сервисов.