пятница, 13 июля 2012 г.

Пост Мортемы Без Упреков и Культура Справедливости

В продолжение предыдущего поста:

На прошлой неделе Оуэн Томас написал лестную статью на Buiseness Insider о том, как мы в Etsy работаем с ошибками. Я думаю, что могу немного уточнить, как мы в действительности это делаем, и почему.

Любой, кто когда-либо работал с технологиями различного масштаба, знаком со сбоями в работе. Сбои не интересует, какая у вас архитектура, и как хорошо вы над ней поработали, их не интересует код, который вы пишите и ревьюите, им не интересны предупреждения и метрики, которые вы так тщательно подбирали и обдумывали.

Сбои просто случаются. Если вы работаете со сложными системами, то этот вывод предопределен. Но что насчет сбоев, которые случаются из-за действий (или, в некоторых случаях, отсутствия действий) отдельных людей? Что вы делаете с теми небрежными людьми, которые устроили весёленький денек для всех?

Возможно их стоит уволить. Или нужно сделать так, чтобы они не могли больше трогать эти опасные кусочки технологий в будущем. Или они нуждаются в дополнительном обучении.

Это традиционный взгляд на "человеческие ошибки", сосредоточенный на особенностях вовлеченных в происшествие людей. Это то, что Сидни Деккер называет "Теорией Испорченного Яблока" - избавьтесь от испорченных яблок, и вы избавитесь от человеческих ошибок. Выглядит просто, не так ли?

В Etsy мы не приемлем этот традиционный подход. Вместо этого мы хотим видеть ошибки, промахи, упущения и так далее в перспективе изучения. Пост-Мортемы Без Упреков являются частью этого.


Пост-Мортем Без Упреков

Что значит проводить Пост-Мортемы Без Упреков?
Значит ли это, что все могут делать ошибки и им это сойдет с рук? Нет.

Ну, может быть. Это зависит от того, что для вас значит "сойдет с рук". Позвольте мне объяснить.

Наличие Культуры Справедливости означает, что вы пытаетесь держать в равновесии безопасность и ответственность. Это означает, что расследуя ошибки способом, сфокусированном на ситуационных аспектах механизма случившегося сбоя и процессе принятия решений людьми, близкими к сбою, организация может стать безопаснее, чем в случае, когда, в качестве мер по предотвращению сбоя в будущем, просто наказываются непосредственные участники.

Процесс Пост-Мортемов "без упреков" означает, что инженеры, чьи действия способствовали появлению катастрофы, могут детально описать:
  • что и когда они сделали;
  • что они при этом наблюдали;
  • какие у них были ожидания;
  • какие они сделали предположения;
  • и их понимание того, в каком порядке происходили те или иные события.
...и они могут детально описать это без страха перед возможным наказанием.

Почему их не нужно наказывать и устраивать им выволочку? Потому что инженер, который думает что ему устроят выволочку, отрицательно мотивирован на то, чтобы вдаваться в детали, необходимые для понимания механизма, патологии и принципа работы случившегося сбоя. И это - недостаточное понимание того, как произошла катастрофа - практически гарантирует, что она повторится. Если не этот инженер, то какой-нибудь другой в будущем наверняка повторит ошибку.

Мы считаем, что детали - это краеугольный камень улучшения безопасности в Etsy.

Если мы возьмем "упреки" как основной подход, то мы косвенно принимаем, что устрашение - это то, благодаря чему организация становится безопаснее. Это основано на том, что люди, а не случай, являются причиной ошибок. Это так же связано с идеей, что должен быть страх перед наказанием за то, что кто-то не делает свою работу так, как следует. Потому что страх перед наказанием мотивирует людей поступать правильно в будущем. Ведь так?

Цикл "назови-упрекни-пристыди" выглядит примерно так:
  1. Инженер что-то делает, и в результате становится соучастником сбоя или инцидента
  2. Инженера наказывают, пристыжают, всячески упрекают, или отправляют на переобучение
  3. Уменьшается доверие между инженерами "у сохи" ("острый конец") и менеджментом ("тупой конец"), занятым поиском козлов отпущения
  4. Инженеры начинают замалчивать детали касательно действий/обстановки/наблюдений, что приводит к работе в стиле "Прикрой Свою Заницу" (из-за страха перед наказаниями)
  5. Из-за молчания, упомянутого в предыдущем пункте, менеджеры получают меньше информации о том, как идет повседневная работа, а инженеры хуже информированы на счет спящих или скрытых обстоятельств, которые могут стать причиной катастрофы
  6. Шансы ошибиться растут, скрытые обстоятельства невозможно определить из-за п.5
  7. Переходим к п.1
Нам необходимо избежать этого цикла. Мы хотим, чтобы инженер, который совершил ошибку, посвятил нас в детали того, почему (явно или неявно) он или она сделали то, что сделали; почему это действие выглядело для них разумным в тот момент. Это краеугольный камень понимания патологии ошибки. Те или иные действия выглядели разумными для человека потому, что если бы они не казались таковыми, то он бы этих действий не предпринимал.

Основной принцип здесь - это сказанное Эриком Холлнагелем:
Мы должны понимать, что катастрофа произошла не потому, что кто-то играл и проиграл.  
Катастрофы случаются потому, что кто-то верил что:  
...то, что только что случилось невозможно 
...или то, что только что случилось, никак не может быть связано с тем, что они делают 
...или что вероятная выгода от сделанного стоит любых потенциальных рисков


Второй Уровень Понимания

Эта идея копнуть глубже в обстоятельства и окружение, в которых оказался инженер, называется поиском "Второго Уровня". На собраниях по случаю Пост-Мортемов мы ищем эти "Вторые Уровни" чтобы понять что же пошло не так.

Исходя из "За Человеческой Ошибкой" получается следующая разница между пониманием человеческой ошибки "первого уровня" и "второго уровня":

Первый Уровень Понимания Второй Уровень Понимания
Человеческая ошибка стала причиной сбоя Человеческая ошибка - это следствие системных уязвимостей в самой организации
Сказать, что  именно люди должны были сделать - это подходящий способ описать произошедший сбой Рассказы о том, что люди должны были сделать, не объясняют, почему то, что они сделали, казалось для них разумным
Если мы скажем, что в следующий раз  надо быть более аккуратными, мы решим проблему раз и навсегда Только постоянный поиск уязвимостей поможет организации улучшить безопасность


Позволяя Инженерам Владеть Своими Историями

Забавные вещи происходят когда инженеры делают ошибки и при этом чувствуют, что для них безопасно рассказывать о происшествии в деталях: они не только охотно берут на себя ответственность, но еще и полны энтузиазма помочь остальной компании не совершать подобных ошибок в будущем. Они, в конце концов, главные эксперты по своей ошибке. И они должны быть достаточно сильно вовлечены в предложения по исправлению данной проблемы.

Так что, технически, инженерам не совсем "сойдет с рук" содеянное, если применять процесс Пост-Мортемов Без Упреков. Им еще как придется постараться, чтобы помочь Etsy в результате стать более безопасным и надежным. И вот смотрите: большая часть инженеров, которых я знаю, считают, что упрощать работу другим людям это отличное занятие.

Так что же мы делаем чтобы "Культура Справедливости" работала в Etsy?
  • Мы поощряем познание через Пост-Мортемы "без упреков" по результатам перебоев в работе и катастроф
  • Наша цель - понять как инцидент мог случиться, чтобы в будущем встретить его во всеоружии
  • Мы ищем Второй Уровень Понимания, копаемся в деталях, смотрим с разных точек зрения на сбой, и мы не наказываем людей за то, что они делают ошибки
  • Вместо того чтобы наказывать инженеров, мы даем им необходимые полномочия по улучшению безопасности, позволяя им детально описать свой вклад в происшествие
  • Мы даем возможность, и даже поощряем людей, сделавших ошибку, становиться экспертами в обучении остальной организации по части того, как не допустить подобного в будущем
  • Мы допускаем, что всегда есть ситуации, в которых люди принимают решение о том, что делать, а что нет, на свой страх и риск, и что адекватная оценка этих решений возможна лишь после их принятия
  • Мы допускаем, что ошибка ретроспекции будет и дальше мешать нам правильно оценивать произошедшие события, но мы усердно работаем на тем, чтобы избавиться от нее
  • Мы так же допускаем, что избежать фундаментальной ошибки атрибуции атрибуции трудно, поэтому мы стараемся сосредоточиться на окружении и обстоятельствах вовлеченных людей при исследовании инцидентов
  • Мы стараемся убедиться, что "тупой конец" организации понимает, как работа на "остром конце" происходит на самом деле (в противоположность их представлению о процессах из описания процедур и диаграмм Ганта)
  • "Острому концу" полагается информировать организацию о том, где проходит граница между корректным и некорректным поведением. Это не та вещь, которую "тупой конец" способен проделать самостоятельно
Сбои просто случаются. Для того чтобы понять, как они случаются, мы, в первую очередь, должны понять нашу реакцию на сбои.

С одной стороны, мы можем решить, что единственной причиной может быть только некомпетентность, и орать на инженеров "будьте внимательнее!" или "будьте аккуратнее!".
С другой стороны, мы можем внимательно присмотреться к тому, как случилось то, что случилось, уважать вовлеченных в это инженеров, и учиться на совершенных ошибках.

Вот почему мы в Etsy практикуем Пост-Мортемы Без Упреков, и по той же причине мы стараемся создать у себя Культуру Справедливости.

_______________________________________________________________

Примечания переводчика:
  1. "Тупой/острый конец" это отсылка к модели причин несчастных случаев (модель "швейцарского сыра" это одна из них, да) Ричарда Кука и Дэвида Вудса. Я позже постараюсь о ней написать.

Спасибы rovena antary за то что обычный русский язык победил мой собственный русский язык

2 комментария:

  1. Не Просто Культуру -- Культуру Справедливости и Объективности (just здесь является прилагательным с таким примерно вот значением, как в justice).
    Спасибо за перевод, интересно было узнать немного про технарскую сторону Etsy, симпатичные ребята.

    ОтветитьУдалить
    Ответы
    1. Как-то не подумал про это. Сейчас поправлю.

      А вообще Etsy со всех сторон примечательная компания - много довольно выдающихся сотрудников, интересные организационные и инженерные решения и при этом всем они охотно про это рассказывают как у себя в блоге так и на всевозможных конференциях

      Удалить