Site Reliability Engineering. Надежность и безотказность как в Google



Вот уже почти 20 лет компания Google обеспечивает работу невообразимо сложных и масштабных систен, которые чутко реагируют на запросы пользователей. Поисковик Google находит ответ на любые вопросы за доли секунды, карты Google с высочайшей точностью отражают земной ландшафт, а почта Google доступна в режиме 365/24/7 и, в сущности, стала первым общедоступным облачным хранилищем. Неужели эти системы безупречны? Нет, они тоже отказывают, ломаются и устаревают, как любая техника. Просто мы этого не замечаем. Все дело в том, что уже более десяти лет Google нарабатывает уникальную технологию Site Reliability Engineering, обеспечивающую бесперебойную работу и поступательное развитие софтверных систем любой сложности. Эта книга - кладезь опыта, накопленного компанией Google за долгие годы, коллективный труд многих выдающихся специалистов и незаменимый ресурс для любого инженера, желающего разрабатывать и поддерживать любые продукты максимально качественно и эффективно

Рейтинг:
Добавить в избранные:
Автор:
Страниц: 51

1. Предисловие Марка Берджеса
2. Предисловие авторов
3. Благодарности
4. Часть I. Введение
5. 1. Вступление
6. 2. Среда промышленной эксплуатации Google с точки зрения SRE
7. Часть II. Принципы
8. 3. Приручаем риски
9. 4. Целевой уровень качества обслуживания
10. 5. Избавляемся от рутины
11. 6. Мониторинг распределенных систем
12. 7. Эволюция автоматизации в Google
13. 8. Технологии выпуска ПО
14. 9. Простота
15. Часть III. Практики
16. 10. Оповещения на основании данных временных рядов
17. 11. Быть на связи
18. 12. Эффективная диагностика и решение проблем
19. 13. Реагирование в критических ситуациях
20. 14. Управление в критических ситуациях
21. 15. Культура постмортема: учимся на ошибках
22. 16. Контроль неисправностей
23. 17. Тестирование надежности систем
24. 18. Разработка ПО службой SRE
25. 19. Балансировка нагрузки на уровне фронтенда
26. 20. Балансировка нагрузки в дата-центре
27. 21. Справляемся с перегрузками
28. 22. Справляемся с каскадными сбоями
29. 23. Разрешение конфликтов: консенсус в распределенных системах и обеспечение надежности
30. 24. Cron: планирование и расписание в распределенных системах
31. 25. Конвейеры обработки данных
32. 26. Сохранность данных: как пишется, так и читается
33. 27. Надежный масштабируемый выпуск продукта
34. Часть IV. Управление
35. 28. Ускоренное обучение SR-инженеров для работы на дежурствах и не только
36. 29. Справляемся с отвлекающими факторами и прерываниями
37. 30. Добавляем в команду нового SR-инженера, чтобы предотвратить операционную перегрузку
38. 31. Общение и взаимодействие в службе SRE
39. 32. Развитие модели вовлеченности SR-инженеров
40. Часть V. Выводы
41. 33. Полезные уроки из других отраслей
42. 34. Заключение
43. Приложения
44. А. Таблица доступности
45. Б. Практические рекомендации для сервисов в промышленной эксплуатации
46. В. Пример документа о происшествиях
47. Г. Пример постмортема
48. Д. Список действий для координации запуска
49. Е. Пример протокола рабочего совещания
50. Об авторах
51. Библиография