К разговору о методических рекомендациях в медицине

«Шум в медицинской среде куда выше, чем мы думаем. Специалисты порой расходятся во мнениях по поводу диагностики рака и сердечно-сосудистых заболеваний – даже при оценке рентгенограмм. Это означает, что лечение, назначенное пациенту, сродни результату лотереи».

«Доктора уверены, что поставят один и тот же диагноз независимо от дня недели или времени дня. Однако выясняется: слова врачей расходятся с их делами – все зависит от того, насколько они устали».

«Методические рекомендации в медицине помогут врачам снизить вероятность ошибок, которые дорого обходятся пациентам. Подобные документы полезны всему медицинскому сообществу – ведь они уменьшают вариативность суждений».

Глава 23

Определение шкалы оценки профессиональной эффективности

Начнем с упражнения. Выберите трех знакомых вам людей – коллег или приятелей. Оцените каждого из них по шкале от 1 до 5. Примем балл 1 за самый низкий, балл 5 – за наивысший. Рассматривать будем три характеристики: доброту, интеллект и трудолюбие. Теперь попросите человека, который также хорошо знает ваших кандидатов, – супругу, коллегу, лучшего друга – проделать ту же процедуру с теми же людьми.

Высока вероятность, что ваш помощник в некоторых случаях выставит иной балл. Если есть желание – обсудите причины подобных расхождений. Скорее всего, выяснится, что вы использовали шкалу по-разному. Это и есть межэкспертный (в данном случае межличностный) шум. Возможно, вы считаете, что наивысшую оценку получит лишь человек, обладающий действительно выдающимися качествами. С другой стороны, ваш напарник уверен, что для выставления отличной оценки качества просто должны быть развиты выше среднего. Не исключено, что у вас с помощником разное мировоззрение: например, каждый из вас по-своему представляет себе доброту.

Теперь вообразите, что результатом вашего теста станет продвижение человека по службе или иные бонусы. Допустим, вы с напарником участвуете в оценке эффективности профессиональной деятельности работников какой-либо компании, где в шкалу ценностей включены доброта, интеллект и трудолюбие. Изменится ли выставленный вами балл? Будет ли он так же высок? А может, станет еще выше? Как бы вы ни ответили на наш вопрос, разница в целях исследования и особенностях использования измерительного инструмента наверняка создаст шумовой эффект. И в самом деле, обсуждаемые нами расхождения регулярно наблюдаются при оценке деловых качеств в зависимости от установок, принятых в той или иной компании.

Требуется суждение…

Оценка эффективности работника регулярно производится почти в каждой крупной компании, и сотрудники совсем не в восторге от подобного испытания. Вспоминается заголовок в одной из газет³⁴⁹: «Исследование показало, что практически каждый человек ненавидит аттестации». Добавим, что любой работник знает (во всяком случае, так нам представляется), что процесс аттестации подвержен как шуму, так и смещению. Кстати, почти никто из нас не подозревает, сколько шума производит сам.

В идеальном мире оценка эффективности не потребовала бы вынесения суждения; достаточной основой для оценки деловых качеств стали бы объективные факты. Однако большинство современных организаций разительно отличается от булавочной фабрики Адама Смита, где вклад каждого работника можно было точно измерить. Как сегодня оценить вклад в общее дело финансового директора или главы исследовательского отдела? Современные работники умственного труда работают в условиях многозадачности, и порой цели, на которые направлена их деятельность, противоречивы. Сосредоточиться лишь на одной из них – значит исказить оценку и нанести ущерб системе стимулирования. Например, количество пациентов, которых доктор принимает за день, безусловно, является важным фактором эффективности работы лечебного заведения. Тем не менее вы не захотите, чтобы врач сосредоточился исключительно на объеме, не станете оценивать его труд и поощрять лишь по количественному признаку. Каждый количественный индикатор работы – объем продаж или число строк программного кода – следует рассматривать в контексте. Клиент бывает простым, а бывает и сложным; не все проекты по разработке программного обеспечения идентичны по значимости. Подобные дилеммы говорят о том, что многих работников нельзя оценить комплексно лишь на основании объективных показателей производительности труда. Именно поэтому сегодня широко распространены аттестации с применением методов суждения³⁵⁰.

Одна доля реальных сигналов на три доли шума

По результатам опыта служебных аттестаций опубликованы тысячи аналитических статей, и большинство авторов приходит к выводу³⁵¹ об огромной доле шума в оценках. В основном тревожные сигналы касаются метода «360 градусов», когда одного и того же работника по самым разным параметрам оценивают многочисленные эксперты. Не станем утверждать, что итоги подобных аттестаций обнадеживают. Исследования нередко говорят о том, что истинная дисперсия (то есть диапазон реальных оценок деловых качеств конкретного человека) составляет лишь от 20 до 30 % разброса оценок. Остальные 70–80 %³⁵² являются системным шумом.

Откуда берется шум? Благодаря различным исследованиям³⁵³, посвященным дисперсии в оценках эффективности работы персонала, мы знаем, что в данном случае представлены все компоненты системного шума.

В контексте оценки деловых качеств каждый из них выделить несложно. Допустим, у нас два представителя аттестационной комиссии: Линн и Мэри. Линн снисходительная, а Мэри строгая (то есть Линн в среднем присваивает каждому аттестуемому более высокий балл); соответственно, здесь мы сталкиваемся с межэкспертным шумом. Как уже отмечалось при обсуждении судей, подобного рода шум может означать, что у Линн и Мэри действительно разное восприятие либо восприятие идентично, однако каждый из участников аттестационной комиссии по-своему использует шкалу оценки.

Итак, допустим, вас аттестует Линн. Она изначально невысокого мнения о вас, равно как и о вашем вкладе в работу компании. В таком случае ее обычная снисходительность компенсируется невольной негативной реакцией. Назовем подобную реакцию эксперта на конкретного работника стабильной моделью восприятия. Данная модель четко ассоциируется у Линн с вашей личностью и влияет на ее суждение, в чем мы и видим источник внутриэкспертного шума.

Допустим, что в течение рабочего дня Мэри сообщают: кто-то задел ее машину на служебной парковке. Заметим, что к этому моменту она еще не успела заполнить итоговый протокол оценки. Или предположим, Линн только что начислили весьма щедрую премию и она приступила к вашей аттестации в отличном расположении духа. Безусловно, каждое из этих событий генерирует ситуативный шум.

Сколько исследований – столько и мнений о разбивке системного шума на три указанных нами компонента (межэкспертный, внутриэкспертный и ситуативный). Пропорции варьируют в зависимости от того, за какой компанией мы наблюдаем, и мы вполне способны определить причины подобных вариаций. Так или иначе, каждая из разновидностей шума – явление нежелательное. Основная идея представляется довольно простой: оценка деловых качеств куда меньше отражает реальную эффективность работника, чем нам хотелось бы. В одном из аналитических обзоров мы прочтем следующее заключение: «Связь между реальной эффективностью профессиональной деятельности³⁵⁴ и ее оценкой чаще всего слаба или, по крайней мере, отличается неопределенностью».

Добавим, что существует множество причин, по которым итоговая оценка в конкретной организации не соответствует фактической эффективности аттестуемого работника³⁵⁵. Например, организация изначально не ставит перед собой задачи определения точных рейтингов, поскольку аттестация проводится исключительно для поддержания рабочего тонуса сотрудников³⁵⁶. Могут присутствовать и другие мотивы: эксперт намеренно завышает оценку, чтобы избежать последующего неприятного разговора с аттестуемым, либо стремится добавить баллов человеку, давно рассчитывающему на повышение по службе. Парадоксально, что высокая оценка может даже объясняться желанием оценивающего избавиться от неэффективного члена команды, способствуя его переводу в иное подразделение.

Приведенные в пример расчеты, безусловно, искажают итоговый рейтинг, однако не являются единственной причиной возникновения шумового фона. Об этом говорит и эксперимент, проведенный в естественных условиях: некоторые системы обратной связи, относящиеся к модели «360 градусов», используются исключительно в качестве стимулов развития. Респондентам сообщают, что оценка не будет использована для их аттестации. Если оценивающий верит подобному утверждению, то не станет ни завышать, ни занижать оценку. Выясняется, что в результате подобного подхода значительно меняется качество отзыва, и все же уровень системного шума остается высоким, обеспечивая больший разброс оценок, нежели предполагается реальной эффективностью оцениваемого работника. Даже в случаях отзывов сугубо в целях саморазвития³⁵⁷ в оценках по-прежнему присутствует много шума.