Книга: Руководство по DevOps
Назад: Глава 3. Второй путь: принципы обратной связи
Дальше: Часть II. Откуда начать

Глава 4. Третий путь: принципы непрерывного обучения и экспериментирования

В то время как первый путь описывает ход рабочего процесса слева направо, а второй — быструю и постоянно действующую обратную связь справа налево, третий путь протекает в постоянном обучении и экспериментировании. Для отдельных работников становится возможным постоянно создавать знания и превращать их из индивидуальных в общие, для команд и организации в целом.
В материальном производстве, где сохраняются систематические сложности с качеством и безопасностью, работы обычно жестко распределены и проводятся строго в соответствии с установленными правилами. Например, на заводе GM во Фримонте, описанном в предыдущих главах, сотрудники имели очень мало возможностей для применения улучшений и приобретенных знаний в повседневной деятельности, а все предложения что-либо улучшить «упирались в каменную стену безразличия».
В таких производственных средах зачастую существует атмосфера страха и недоверия: рабочих, допускающих ошибки, наказывают, а тех, кто предлагает усовершенствования или указывает на недостатки, рассматривают как провокаторов и смутьянов. В подобных случаях руководители активно подавляют обучение и совершенствование и даже наказывают за них, надолго закрепляя имеющиеся проблемы с качеством и безопасностью.
Высокопроизводительные производства, наоборот, требуют активного содействия обучению вместо жестко заданных заданий, а система работы должна быть динамической, чтобы рабочие, занятые на основном производстве, могли экспериментировать в своей повседневной деятельности. Это становится возможным благодаря тщательной стандартизации процедур работы и документирования результатов.
В технологическом потоке создания ценности наша цель — формирование культуры высокого доверия, подкрепляющей стремление учиться всю жизнь, в том числе методом проб и ошибок, в ходе повседневной работы. Применяя научный подход и к процессу внедрения улучшений, и к разработке продуктов, мы можем извлекать уроки из успехов и неудач, выявляя неплодотворные идеи и совершенствуя продуктивные. Более того, любое знание, полученное на одном рабочем месте, можно быстро сделать всеобщим, чтобы новые методы и практики могли быть использованы в масштабах всей организации.
Мы выделяем время, чтобы оптимизировать повседневную работу и в дальнейшем обеспечить и ускорить обучение сотрудников. Мы непрерывно вносим дополнительную нагрузку в системы, чтобы активизировать их постоянное совершенствование. Мы даже имитируем сбои в производственных процессах, правда, в контролируемых условиях, чтобы проверить надежность результатов.
Благодаря созданию динамичной системы непрерывного обучения, помогающей выиграть в рыночной конкурентной среде, мы даем возможность группам быстро адаптироваться к постоянно меняющимся условиям.
Создание условий для формирования культуры организационного обучения и безопасности
Работая в сложной системе, по определению невозможно точно предсказать все результаты любого действия. Это ведет к неожиданным или даже катастрофическим последствиям и несчастным случаям даже тогда, когда мы принимаем меры предосторожности и делаем все тщательно.
Когда эти несчастные случаи сказываются на наших клиентах, мы стремимся понять, почему это произошло. Главной причиной зачастую считается человеческий фактор. До сих пор наиболее частая реакция руководства — попытка пристыдить сотрудника («позор тебе, NN»), чья деятельность вызвала проблему. Подспудно или явно, но менеджмент тем самым намекает: тот, кто виновен в ошибке, будет наказан. Затем создаются дополнительные процессы работы и узаконивается необходимость получать одобрение от вышестоящего руководства, чтобы предотвратить повторное появление похожей ошибки.
Автор термина «просто культура» доктор Сидни Деккер, кодифицировавший некоторые ключевые элементы культуры безопасности, писал: «Реакция на происшествия и аварии, кажущаяся несправедливой, может препятствовать безопасности расследования, стимулировать появление страха вместо понимания ситуации у тех, кто выполняет действительно важную для безопасности работу. Организация еще более бюрократизируется, вместо того чтобы повышать заботу о работниках, и культивирует секретность, уклонение от ответственности и стремление к самозащите».
Эти вопросы особенно остро встают в процессе технологического потока создания ценности. В этом случае работа практически всегда выполняется в сложных системах, и если руководство, реагируя на сбои и происшествия, будет культивировать атмосферу страха, то маловероятно, что кто-то вообще решится сообщить об ошибке. В результате проблема останется скрытой, пока не приведет к катастрофическим последствиям.
Доктор Рон Веструм одним из первых увидел важность организационной культуры в соблюдении техники безопасности и обеспечении производительности. Он отметил, что в медицинских организациях «генеративные» культуры — один из основных прогностических факторов безопасности пациентов. Он определил три типа культуры.

 

• Для патологических организаций характерен высокий уровень страха и угроз. Сотрудники часто не делятся друг с другом информацией, утаивают ее по причинам внутрикорпоративной политики или искажают ее, стремясь выглядеть лучше. Неудачи зачастую скрываются.
• Бюрократические организации характеризуются жесткими правилами и процессами, зачастую каждое подразделение поддерживает на своей «поляне» собственные правила. Неудачи проходят через систему разбирательств, после чего выносится решение наказать или простить.
• Генеративные организации характеризуются активным поиском и распространением информации, каким образом лучше выполнить свою задачу. Ответственность распределяется по всему потоку создания ценности, а неудачи ведут к размышлениям и поиску истинной причины.

 

Рис. 8. Созданная Веструмом модель организационной топологии: как организации обрабатывают информацию (источник: Рон Веструм. Типология организационной культуры // BMJ Quality & Safety 13, no. 2 (2004), doi:)

 

Так же как в исследованных Веструмом организациях здравоохранения, генеративная культура высокого доверия определяет информационную и организационную производительность в технологическом потоке создания ценности.
Мы формируем основы генеративной культуры, стремясь создать безопасную систему работы. Когда происходят авария или сбой, мы, вместо того чтобы найти человека, допустившего ошибку, ищем способ перестроить систему, чтобы избежать повторения подобных случаев.
Например, мы можем проводить безупречный анализ причин неудачи после каждого инцидента. Цель — понять, как произошла авария, и прийти к согласию по поводу оптимальных контрмер для оптимизации системы, максимально быстрого обнаружения и исправления проблемы и предотвращения рецидива.
Делая это, мы порождаем организационное обучение. Так, Бетани Макри, инженер в Etsy, возглавляющая создание инструмента Morgue, помогающего вскрыть и записать события для анализа причин сбоя, заявила: «Исключив ответственность, вы устраняете страх; устранив страх, допускаете честность; тогда честность дает возможность предотвратить сбой».
Доктор Спир наблюдал: когда прекращается осуждение и начинается организационное обучение, «организации начинают как никогда активно ставить себе диагнозы и самосовершенствоваться, гораздо лучше обнаруживать проблемы и решать их».
Многие из этих признаков были также описаны доктором Питером Сенге как атрибуты обучающихся организаций. В книге «Пятая дисциплина. Искусство и практика самообучающейся организации» он писал, что эти характеристики помогают клиентам, обеспечивают качество, создают конкурентные преимущества, делают работников более энергичными и заинтересованными и обнажают правду.
Взять за правило улучшение повседневной работы
Команды часто не могут или не желают повысить эффективность процессов, в рамках которых действуют. В результате они не только продолжают страдать от проблем: с течением времени неприятности только усиливаются. Майк Ротер заметил в уже упоминавшейся книге «Тойота Ката…», что в отсутствие улучшений процессы не остаются прежними — из-за хаоса и энтропии они с течением времени действительно идут только хуже.
Когда в технологическом потоке создания ценности мы избегаем исправлять проблемы, полагаясь на ежедневно применяемые методы обойти их, они накапливаются, равно как и технический долг. Потом выяснится: все свои усилия мы тратим на попытки обойти проблему, пытаясь избежать неприятностей, и у нас уже не остается времени для продуктивной работы. Вот почему Майк Орзен, автор книги Lean IT, заметил: «Важнее повседневной работы — улучшение повседневной работы».
Мы можем оптимизировать повседневную работу, целенаправленно выделяя время, чтобы сокращать технический долг, устранять дефекты и выполнять рефакторинг, наводя порядок на проблемных участках кода и рабочей среды. Мы можем сделать это, резервируя циклы на каждом интервале развертывания или составляя график kaizen blitz (молниеносных улучшений), то есть периодов, когда инженеры самоорганизуются в группы для работы над исправлением любой проблемы по выбору.
В результате каждый постоянно ищет и устраняет проблемы в своей области, и это часть его повседневной работы. Решив наконец повседневные вопросы, замалчиваемые целые месяцы или даже годы, мы сможем перейти к искоренению менее очевидных проблем. Обнаруживая все более слабые сигналы о сбоях и исправляя ошибки, мы тем самым устраняем проблемы не только тогда, когда это легче и дешевле, но и когда последствия еще невелики.
Рассмотрим следующий пример — повышение безопасности на рабочем месте в Alcoa, компании по производству алюминия, получившей в 1987 г. 7,8 миллиарда долларов дохода. Производство алюминия требует чрезвычайно высокой температуры, высокого давления и использования агрессивных химикатов. В том же году компания установила пугающий рекорд: 2 % от 90 тысяч сотрудников получили травмы — семь пострадавших в день. Когда Пол О'Нил стал CEO, его первой целью стало исключить травматизм среди сотрудников, подрядчиков и посетителей.
О'Нил хотел иметь возможность не позднее чем через 24 часа узнавать о получении травмы на производстве — не для того, чтобы наказывать, а чтобы убедиться: урок из этого случая извлечен, выводы сделаны, меры по созданию более безопасного рабочего места приняты. В течение десяти лет количество производственных травм в Alcoa сократилось на 95 %.
Сокращение производственного травматизма позволило Alcoa сосредоточить внимание на небольших сложностях и слабых сигналах о неисправностях. Вместо того чтобы посылать О'Нилу уведомления о происшедших несчастных случаях, его стали информировать и о предотвращенных. Поступая таким образом, руководство компании улучшало безопасность рабочих мест на 20 лет вперед. В результате получались завидные отчеты о безопасности.
Как пишет Спир, «сотрудники Alcoa перестали придумывать обходные пути, чтобы справиться с трудностями, неудобствами и препятствиями. Преодоление трудностей, срочные исправления и решения были постепенно вытеснены во всей организации динамическим определением возможностей улучшить рабочие процессы и конечные продукты. Когда эти возможности определены, а проблемы исследованы, накопившиеся в компании запасы неведения и пренебрежения преображаются в зерна знания». Это помогло компании Alcoa получить конкурентные преимущества на рынке.
Точно так же мы делаем систему работы более безопасной в технологическом потоке создания ценности. Это происходит по мере того, как мы находим и устраняем проблемы со все более слабыми сигналами о неисправности. Например, мы первоначально можем проводить расследование только случаев, когда пострадали клиенты. Со временем мы можем перейти к случаям, затрагивающим отдельные команды, и даже к ошибкам, еще не успевшим вызвать сбои.
Преобразовать локальные открытия в глобальные улучшения
Когда на рабочем месте или в группе делаются локальные выводы, необходимо также, чтобы существовали механизмы распространения полученного знания на всю организацию, использования этого знания и извлечения из него выгоды. Другими словами, если группа лиц или отдельный работник имеют опыт, повышающий их компетентность, мы обязаны превратить несистематизированное знание (его трудно передать другому лицу в письменном или устном виде) в явное, кодифицированное, способное через практику применения стать компетентностью другого человека.
Возникает гарантия, что когда кто-либо еще возьмется за аналогичную работу, он станет использовать коллективный опыт тех, кто ранее занимался такой же работой. Замечательный пример превращения локальных знаний в глобальные — программа ВМС США по разработке атомных двигательных систем (также известная как NR — Naval Reactors, военно-морские реакторы). В ней более 5700 реакторо-лет работы без единого несчастного случая, связанного с поражением радиацией.
Программа NR известна сильной приверженностью к сценариям выполняемых процедур и стандартизированной работе, а также строгой необходимости отчетов обо всех происшествиях в случае отхода от процедуры или обычных действий. Это делается, чтобы накапливать знания, причем независимо от того, насколько незначителен сигнал о сбое — процедуры постоянно обновляются и системы конструируются на основе сделанных выводов.
В результате, когда новый экипаж впервые выходит в море, команда извлекает пользу из коллективного знания, полученного из 5700 реакторо-лет безаварийной работы. Не менее впечатляет то, что и собственный опыт, накопленный в открытом море, будет добавлен в коллективное знание, поможет будущим экипажам безопасно выполнять задания.
В технологическом потоке создания ценности мы должны создать аналогичные механизмы для формирования глобальных знаний — от стремления сделать анализ произошедших неприятностей доступными для выполнения в них поиска всеми командами, решающими подобные проблемы, и до создания общих хранилищ исходных кодов, охватывающих всю организацию. Общий код, библиотеки и описания конфигураций впитывают ценнейшие коллективные знания всей организации и могут быть использованы. Все эти механизмы помогают преобразовать индивидуальную компетентность в знания, принадлежащие всем в организации.
Встроить шаблоны устойчивости в повседневную работу
Организации, занятые материальным производством и имеющие невысокую производительность, во многих отношениях тем самым защищают себя от перебоев — другими словами, они всегда могут ускориться или нарастить «подкожный жирок». Например, чтобы уменьшить риск простоя на рабочих местах (из-за позднего прибытия сырья, отбраковки, сделанной на складе, и т. п.), менеджеры могут создать на каждом рабочем месте больший запас заготовок. Однако такой буферный запас увеличивает НзП, что ведет к различным нежелательным последствиям, описанным выше.
Точно так же, чтобы снизить риск простоя рабочих мест из-за неисправностей оборудования, менеджеры могут увеличить производственные мощности, купив больше оборудования, наняв больше людей и даже увеличив площадь производственных помещений. Но все эти меры приведут к увеличению расходов.
И наоборот, передовые работники могут добиться тех же или даже более высоких результатов, улучшая повседневную работу, непрерывно отыскивая узкие места, чтобы повысить производительность, а также устойчивость работы производственной системы.
Рассмотрим типичный эксперимент на одном из предприятий компании Aisin Seiki, одного из ведущих поставщиков сидений для компании Toyota. Предположим, что на нем есть две производственные линии. Каждая способна производить сто единиц продукции в день. В дни небольшой загрузки они могут выполнять заказы на одной из линий, а на другой проводить эксперименты по повышению производительности и поиску уязвимых мест в рабочем процессе, зная, что если на первой линии произойдет сбой, то производство можно будет перенести на вторую.
Непрестанным экспериментированием в повседневной работе они смогли увеличить мощность производства, часто без добавления нового оборудования или найма дополнительных работников. Сложившиеся в результате этих улучшений шаблоны работы повысили не только устойчивость, но и производительность труда, поскольку организация всегда находится в состоянии напряженности и изменений. Процесс применения стресса с целью повышения устойчивости был назван придумавшим его риск-аналитиком Нассимом Талебом antifragility (антихрупкость).
В технологическом потоке создания ценности мы можем ввести в системы такой же элемент напряженности, постоянно стремясь снизить затраты времени на развертывание, увеличить охват тестированием, уменьшить время выполнения тестов и даже изменить архитектуру, если это необходимо для роста продуктивности работы разработчиков или увеличения надежности.
Мы также можем провести день учений (игровой день), отработав действия при крупномасштабных отказах, например отключении всех центров обработки данных. Или можем внести в производственную среду еще более серьезные неисправности (например, с помощью программы Chaos Monkey, созданной в компании Netflix: она в случайном порядке убивает процессы или нарушает работу серверов в производстве), чтобы убедиться, что система действительно устойчива настолько, насколько мы хотим.
Лидеры укрепляют культуру обучения
Традиционно ожидается, что лидеры будут отвечать за формирование целей, выделение ресурсов для достижения этих целей и установление правильного сочетания стимулов. Лидеры также создают эмоциональную атмосферу в своей организации. Другими словами, ведут за собой, принимая правильные решения.
Однако в настоящее время существуют веские доказательства того, что руководитель не может достичь авторитета только за счет принятия правильных решений. Он должен создавать условия, чтобы его команда достигла максимума в повседневной работе. Другими словами, результат требует усилий и руководителей, и работников, и они взаимно зависимы.
Джим Вумек, автор книги Gemba Walks for Service Excellence: The Step-by-Step Guide for Identifying Service Delighters, описал необходимые взаимодополняющие рабочие отношения и взаимное уважение между лидерами и рядовыми работниками. Согласно Вумеку, взаимосвязь необходима, поскольку ни одна из сторон не может решить проблемы в одиночку: лидеры недостаточно близки к рабочим местам, хотя это может быть необходимо для решения проблем, а рядовые работники не обладают широтой взгляда на работу организации в целом и не имеют права вносить изменения за пределами своей компетенции.
Лидеры должны повысить значение обучения и упорядочить способы устранения неисправностей. Майк Ротер формализовал эти методы, назвав их coaching kata (ката наставничества). В результате получились методы, отражающие научный подход. Мы можем четко выразить свои истинные цели, например «поддержание нулевого числа аварий» в случае Alcoa или «удвоение производительности за год» в случае Aisin.
Эти стратегические цели обусловливают формирование итеративных и более краткосрочных, идущих каскадом и затем выполняющихся путем установления условий на уровне потока создания ценности или рабочего центра (например, «сокращают время выполнения работ на 10 % в течение следующих двух недель»).
Целевые условия задают рамки научного эксперимента: мы ясно формулируем проблему для решения, строим предположения, как предлагаемые нами контрмеры помогут ее снять, разрабатываем методы тестирования предположений, истолковываем полученные результаты и используем полученные знания как основу для следующей итерации.
Лидер помогает обучать работника, проводящего эксперимент, задавая ему вопросы. Например, такие.

 

• Каким был ваш последний шаг и что получилось?
• Что вам удалось узнать?
• Каково состояние проблемы сейчас?
• Какая цель будет у вашего следующего шага?
• Над преодолением какого препятствия вы сейчас работаете?
• Каким будет ваш следующий шаг?
• Какого результата вы ожидаете?
• Когда мы можем его проверить?

 

При таком подходе лидеры помогают работникам увидеть и решить повседневные проблемы. Недаром это ключевой элемент производственной системы Toyota, организации обучения, улучшений Ката и высокой надежности работы компании. Майк Ротер отметил, что видит компанию Toyota «организацией, характеризующейся в первую очередь уникальными поведенческими процедурами, обеспечивающими постоянное обучение всех членов».
В технологическом потоке создания ценности научный подход и итеративный метод направляют процессы внутренних улучшений. Мы проводим эксперименты, чтобы убедиться: создаваемые нами продукты действительно помогут внутренним и внешним клиентам в достижении их целей.
Заключение
Принципы третьего пути удовлетворяют потребности в оценке организационного обучения, обеспечивая высокую доверительность и взаимное перекрытие между функциями, признавая, что в сложных системах сбои всегда будут иметь место, и делая приемлемым обсуждение проблем, с тем чтобы мы могли создать безопасную систему работы. Это также требует институционализации улучшений повседневной работы, преобразования локальных знаний во всеобщие. Их можно использовать в рамках всей организации. Также неплохо вводить в работу элемент напряженности.
Хотя формирование культуры непрерывного обучения и экспериментов — основа третьего пути, оно также вплетено в первый и второй. Другими словами, улучшение потока и обратной связи требует итеративного и научного подхода, включающего формирование граничных условий целевого состояния, формирования гипотез, помогающих разработать и провести эксперименты, и оценки результатов.
Результатом будет не только лучшая производительность, но также повысившаяся устойчивость, более высокая удовлетворенность работой и повышенная адаптивность организации.
Заключение к части I
В первой части книги мы сделали обзор нескольких положений, сыгравших роль при создании DevOps. Мы также рассмотрели три основных принципа, формирующих основу для успешного использования DevOps в организациях: принципы потока, обратной связи, непрерывного обучения, экспериментирования. Во второй части мы выясним, как начать внедрять движение DevOps в вашей организации.
Назад: Глава 3. Второй путь: принципы обратной связи
Дальше: Часть II. Откуда начать