Глава 13

Введение в психометрию

Два наиболее распространенных вопроса, которые мы получаем о нашем исследовании: почему мы используем опросы (его мы подробно рассмотрим в следующей главе) и уверены ли мы в том, что можем доверять данным, собранным с помощью опросов (в отличие от данных, сгенерированных системой). Все это подпитывается сомнениями в качестве наших базовых данных и, следовательно, в достоверности наших результатов. Скептицизм в отношении достоверных данных справедлив, поэтому давайте начнем отсюда: насколько вы можете доверять данным, которые были собраны в ходе опроса. Большая часть опасений происходит от типов опросов, с которыми приходится сталкиваться многим из нас, а именно пуш-опросов (также известных как пропагандистские опросы), быстрых опросов и опросов, написанных теми, кто не имеет надлежащей подготовки в области исследований.

Пуш-опросы — это опросы с четко обозначенной и очевидной повесткой дня, на вопросы таких опросов сложно отвечать честно, если только вы заранее не согласны с точкой зрения «исследователя». Примеры таких опросов часто встречаются в политике. Например, в феврале 2017 года президент Трамп выпустил свой Опрос о подконтрольности ведущих СМИ (Mainstream Media Accountability Survey), и общественность мгновенно отреагировала с тревогой. Всего несколько фрагментов из опроса подчеркивают сомнения в вопросах и их способности собирать данные ясно и беспристрастно.

«Считаете ли вы, что ведущие СМИ выпустили несправедливые сообщения о нашем движении?» Это был первый вопрос, и довольно тонкий, но он задает тон остальной части опроса. Пользуясь конструкцией «наше движение», он предлагает респонденту занять позицию «мы против них». «Ведущие СМИ» также является отрицательно заряженным термином в данном политическом цикле.
«Знали ли вы, что данный опрос был выпущен, чтобы показать, что большинство американцев на самом деле поддержали указ президента Трампа о временном ограничении?» Такой вопрос является ярким примером пуш-опроса, когда вопрос скорее пытается навязать респонденту информацию, чем интересуется его мнением или восприятием происходящего. Вопрос также использует психологическую тактику, предполагающую, что «большинство американцев» поддерживают указ о временном ограничении, и апеллирующую к желанию читателя принадлежать к данной группе.
«Согласны ли вы со стратегией президента Трампа пробиться сквозь создаваемую СМИ шумиху и напрямую донести наше послание до людей?» Используется резкий, поляризующий язык, характеризующий все СМИ как «шум» — негативную коннотацию в данном политическом климате.

На этом примере мы видим, почему люди так скептически относятся к опросам. Если это ваш единственный контакт с ними, тогда, конечно, им нельзя доверять! Никакие данные по любому из этих вопросов не могут с достоверностью сообщить о восприятии или мнении респондента.

Даже без такого очевидного примера, как пуш-опрос, некачественные опросы встречаются повсеместно. Чаще всего они являются результатом действий благонамеренных, но неподготовленных авторов опросов, которые надеются получить некоторое представление о мнениях своих клиентов или сотрудников. Их типичными слабыми местами являются:

наводящие вопросы. Вопросы должны позволять респонденту отвечать без навязывания какой-либо точки зрения. Например, формулировка «Как бы вы описали рост Наполеона?» лучше, чем «Наполеон был низкого роста?»;
провокационные вопросы. Вопросы не должны вынуждать респондентов давать неверные для них ответы. К примеру, «Где вы сдавали свой сертификационный экзамен?» не предусматривает возможности того, что респондент не сдавал сертификационный экзамен;
несколько вопросов в одном. Вопрос должен спрашивать только об одной вещи. Например, «Ваши клиенты и центр управления сетями уведомляют вас о сбоях?» не конкретизирует ту часть вопроса, на которую отвечал респондент. Клиенты? Центр управления сетями? И то и другое? Или ни то, ни другое?
непонятный язык. В вопросах должен использоваться язык, знакомый вашим респондентам, и при необходимости должны быть предоставлены разъяснения и примеры.

Потенциальным слабым местом большинства опросов, используемых в бизнесе, является то, что для сбора данных используется только один вопрос. Иногда их называют быстрыми опросами, и они довольно часто используются в маркетинговых исследованиях и бизнес-исследованиях. Они могут быть полезны, если они основаны на хорошо составленных и правильно понятых вопросах. Однако важно, чтобы из такого вида опросов были сделаны только узкоспециальные выводы. Примером правильного быстрого опроса является индекс лояльности клиентов (NPS). Он был тщательно разработан и изучен, хорошо понят, а его использование и области применения детально задокументированы. Хотя существуют более качественные статистические показатели удовлетворенности пользователей и сотрудников, например, те, которые используют большее количество вопросов (например, Ист и соавторы, 2008), зачастую легче получить от вашей аудитории единственный показатель. Кроме того, преимущество NPS состоит в том, что он превратился в отраслевой стандарт и, следовательно, его легко использовать для сравнения между командами и компаниями.

Доверие к данным со скрытыми конструкциями

Учитывая все вышеизложенное, как мы можем доверять данным, полученным на основе данных опроса? Как мы можем быть уверены в том, что никто своей ложью не исказит результаты? Наши исследования используют скрытые конструкции и статистический анализ для представления достоверных данных или, по крайней мере, обеспечивают разумную уверенность в том, что данные говорят нам именно то, что мы слышим.

Скрытая конструкция представляет собой способ измерения чего-либо, что не может быть измерено напрямую. Мы можем спросить о температуре в помещении или времени отклика веб-сайта — это то, что можно изменить напрямую.

Хорошим примером того, что нельзя измерить напрямую, является организационная культура. Мы не можем измерить «температуру» команды или организационной культуры. Нам придется измерить культуру путем измерения ее составных частей (называемых явными переменными), и мы измеряем эти составные части с помощью опросов. То есть, когда вы описываете кому-то организационную культуру команды, вы, вероятно, упоминаете ряд характеристик. Они и являются составными частями организационной культуры. Мы будем измерять каждую (в качестве явных переменных), и вместе они представят организационную культуру команды (скрытую конструкцию). И использование опросов для сбора этих данных является целесообразным, поскольку культура — это жизненный опыт тех, кто работает в команде.

При работе со скрытыми конструкциями либо чем-то еще, что мы хотим измерить в ходе исследования, важно начать с четкого определения и понимания того, что именно мы хотим измерить. В данном случае нам нужно решить, что мы подразумеваем под организационной культурой. Как мы обсуждали в Главе 3, организационная культура, которая нас интересовала, способствовала росту доверия и оптимизации потока информации. Мы ссылались на типологию, предложенную доктором Роном Веструмом (2004), показанную в таблице 13.1.

Как только мы выявили конструкцию, мы составляем вопросы для опроса. Очевидно, что концепция организационной культуры, предложенная Веструмом, не может быть охвачена только одним вопросом; организационная культура является многогранной идеей. Спрашивая «Какова ваша организационная культура?», вы рискуете, что этот вопрос будет понят разными людьми по-разному. Пользуясь скрытыми конструкциями, мы можем задать один вопрос для каждого аспекта исходной концепции.

Если мы определим конструкцию и правильно пропишем ее элементы, она будет работать концептуально, как диаграмма Венна, при этом каждый вопрос такого опроса будет охватывать связанный с ним аспект основной концепции.

После сбора данных мы можем использовать статистические методы для проверки того, что показатели действительно отражают основополагающую концепцию. Как только это будет сделано, мы сможем объединить эти показатели, чтобы получить единое значение.

В данном примере комбинация вопросов для каждого аспекта организационной культуры становится нашим показателем для всей концепции. Усредняя наши показания по каждому пункту, мы получаем своего рода «температуру организационной культуры». Преимущество скрытых конструкций в том, что, используя несколько показателей (называемых явными переменными, — частей скрытой переменной, которые могут быть измерены) для охвата основной концепции, вы помогаете оградить себя от неверных оценок и злого умысла. Каким образом? Для этого есть несколько способов, которые применимы для системных данных с целью измерения эффективности вашей системы.

Скрытые конструкции помогают нам тщательно продумывать, что именно мы хотим измерить и каким образом мы определяем наши конструкции.
Они дают нам несколько точек зрения на поведение и эффективность системы, которую мы наблюдаем, помогая нам устранить ложные данные.
Они затрудняют искажение наших результатов вследствие использования одного источника неверных данных (по недоразумению или злому умыслу).

Скрытые конструкции помогают нам тщательно продумывать то, что мы измеряем

Первый способ, с помощью которого скрытые конструкции помогают нам избежать недостоверных данных, заключается в том, чтобы помочь нам тщательно продумать, что мы хотим измерить и как мы определяем наши конструкции. Время, потраченное на продумывание этого процесса, может помочь нам избежать неверных измерений. Отступите на шаг назад и подумайте о том, что вы пытаетесь измерить и как вы будете это измерять. Давайте вернемся к нашему примеру измерения культуры.

Часто мы слышим, что культура важна при технологических трансформациях, поэтому мы хотим ее измерить. Может быть, нам следует просто спросить наших сотрудников и коллег: «Хороша ли ваша культура?» или «Нравится ли вам культура вашей команды?» А если бы они ответили «да» (или «нет»), что бы это вообще значило? О чем именно это нам говорит?

Что мы подразумеваем под культурой и как ее интерпретировал респондент в первом вопросе? О какой культуре идет речь: о культуре вашей команды или о культуре вашей организации? Если на самом деле мы говорим о культуре на рабочем месте, то какие аспекты этой культуры мы имеем в виду? Или нас действительно больше интересует ваша национальная принадлежность и культура? Предположим, что все поняли часть вопроса о культуре, но что здесь имеется в виду под «хорошо»? Означает ли это доверие? Удовольствие? Или же что-то совершенно иное? Возможно ли вообще, чтобы культура была исключительно хорошей или исключительно плохой?

Второй вопрос немного лучше, потому что мы указываем на то, что спрашиваем о культуре на уровне команды. Однако мы по-прежнему не даем читателю никакого представления о том, что мы подразумеваем под «культурой», поэтому мы можем получить данные, отражающие очень разные представления о том, что же такое командная культура. Еще одна проблема здесь заключается в том, что мы спрашиваем, нравится ли человеку его командная культура. А что значит, что «культура нравится»?

Такой пример может показаться утрированным, но мы видим, что люди делают такие ошибки все время (хотя и не вы, дорогой читатель). Сделав шаг назад, чтобы тщательно продумать, что вы хотите измерить, и действительно определив, что мы подразумеваем под культурой, мы можем получить более надежные данные. Когда мы слышим, что культура важна в технологических преобразованиях, мы имеем в виду культуру, которая имеет высокую степень доверия, способствует информационному потоку, выстраивает мосты между командами, поощряет инновации и разделяет риски. Имея в виду данное определение командной и организационной культуры, мы можем понять, почему типология, представленная доктором Веструмом, так хорошо подходит для нашего исследования.

Скрытые конструкции дают нам несколько точек зрения на наши данные

Второй способ, с помощью которого скрытые конструкции помогают нам избежать недостоверных данных, — это обеспечение нескольких представлений о поведении и эффективности системы, которую мы наблюдаем. Это позволяет нам идентифицировать любые ложные показатели, которые остались бы незамеченными, если бы они были единственным параметром, которым мы бы пытались охватить поведение системы.

Давайте вернемся к вопросу измерения организационной культуры. Чтобы начать измерять данную конструкцию, мы сначала предложили несколько аспектов организационной культуры, основанных на определении доктора Веструма. Исходя из этих аспектов, мы написали несколько элементов.

Позже в данной главе мы более подробно поговорим о написании хороших элементов опроса и проверке их качества. Как только мы соберем данные, мы сможем провести ряд статистических тестов, чтобы убедиться в том, что эти элементы действительно измеряют одну и ту же базовую идею — скрытую конструкцию. Эти тесты проверяют следующее.

Дискриминантная валидность: тесты проводятся, чтобы убедиться, что элементы, которые не должны быть связаны, на самом деле не связаны (к примеру, убедитесь, что элементы, которые, по нашему мнению, не затрагивают организационную культуру, на самом деле с организационной культурой не связаны).
Конвергентная валидность: тесты проводятся, чтобы убедиться, что элементы, которые должны быть связаны, действительно связаны (к примеру, если предполагается, что элементы должны измерять организационную культуру, то они действительно измеряют организационную культуру).

В дополнение к тестированию валидности в целях наших исследований проводятся также испытания надежности. Это гарантирует то, что пункты опроса одинаково читаются и интерпретируются всеми, кто принимает в нем участие. Это также называется внутренней согласованностью.

Взятые вместе, статистические тесты на достоверность (валидность) и надежность подтверждают наши измерения. Они предшествуют любому анализу.

В случае организационной культуры Веструма у нас есть семь элементов, отражающих организационную культуру команды.

В моей команде…

ведется активный поиск информации;
«гонцов» с сообщениями о неудаче и другими плохими новостями не наказывают;
ответственность распределена;
кроссфункциональное сотрудничество поощряется и вознаграждается;
ошибки ведут к исследованиям;
новые идеи приветствуются;
сбои рассматриваются в первую очередь как возможности для улучшения системы.

Используя шкалу от «1 = категорически не согласен» до «7 = полностью согласен», команды могут быстро и легко измерить свою организационную культуру.

Эти элементы были проверены и признаны статистически достоверными и надежными. То есть они измеряют то, для чего они предназначены, и люди обычно читают и интерпретируют их неизменным образом. Вы также заметите, что мы запрашивали данные элементы для команды, а не для организации. Мы приняли это решение при создании элементов опроса как отступление от первоначальной концепции Веструма, так как организации могут быть очень крупными и иметь очаги различных организационных культур. Кроме того, люди точнее отвечают за свою команду, чем за свою организацию. Это помогает нам собирать более точные показатели.

Скрытые конструкции помогают нам защититься от ложных данных

Здесь необходимо кое-что прояснить. Скрытые конструкции, которые периодически перепроверяются статистическими методами и демонстрируют хорошие психометрические свойства, помогают нам защититься от ложных данных.

Как так? Давайте мы объясним.

В предыдущем разделе мы говорили о достоверности и надежности — статистических тестах, которые мы можем сделать, чтобы убедиться, что элементы опроса, которые измеряют скрытую конструкцию, принадлежат друг другу. Когда наши конструкции проходят все эти статистические тесты, мы говорим, что они обладают хорошими психометрическими свойствами. Хорошей практикой будет периодически пересматривать их, чтобы убедиться, что ничего не изменилось, особенно если вы подозреваете изменения в системе или окружающей среде.

В примере с организационной культурой все эти элементы являются надежными показателями конструкции. Вот еще один пример конструкции, где тесты выявили возможности для улучшения нашего измерения. В данном случае мы были заинтересованы в изучении уведомлений об ошибках. Такими элементами были следующие.

Уведомления об ошибках мы получаем в первую очередь из сообщений клиентов.
Уведомления об ошибках мы получаем в первую очередь из центра управления сетями.
Мы получаем предупреждения об ошибках из систем протоколирования и мониторинга.
Мы отслеживаем работоспособность системы на основании предупреждений о превышении пороговых значений (например, если загрузка процессора превышает 90%).
Мы отслеживаем работоспособность системы на основе предупреждений о скорости изменений (например, загрузка процессора за последние 10 минут увеличилась на 25%).

В предварительном проекте опроса мы провели пилотное тестирование конструкции с привлечением порядка 20 технических специалистов и элементами опроса, представленными вместе (то есть они измеряли одну и ту же базовую конструкцию). Однако когда мы завершили наш окончательный, более масштабный сбор данных, мы провели тесты для подтверждения конструкции. В этих заключительных тестах мы обнаружили, что эти элементы на самом деле измеряли два разных параметра. То есть, когда мы провели наши статистические тесты, они не подтвердили единую конструкцию, а вместо этого выявили две конструкции. Первые два элемента измеряют одну конструкцию, которая, как представляется, охватывает «уведомления, поступающие извне автоматизированных процессов»:

уведомления об ошибках мы получаем в первую очередь из сообщений клиентов;
уведомления об ошибках мы получаем в первую очередь из центра управления сетями.

Второй набор элементов измеряет другую конструкцию — «уведомления, поступающие из систем», или «упреждающие уведомления о сбоях»:

мы получаем предупреждения об ошибках из систем протоколирования и мониторинга;
мы отслеживаем работоспособность системы на основании предупреждений о превышении пороговых значений (например, если загрузка процессора превышает 90%);
мы отслеживаем работоспособность системы на основе предупреждений о скорости изменений (например, загрузка процессора за последние 10 минут увеличилась на 25%).

Если бы мы только спросили наших респондентов, отслеживают ли они сбои, с помощью одного вопроса из данного опроса, мы бы не узнали о важности учета того, откуда эти уведомления поступают. Кроме того, если один из этих источников уведомлений изменяет свое поведение, наши статистические тесты его поймают и предупредят нас. Аналогичная концепция применима в отношении системных данных. Мы можем использовать несколько показателей наших систем для отслеживания поведения системы, и эти показатели могут пройти наши проверки достоверности. Тем не менее мы должны продолжать проводить периодические проверки этих показателей, поскольку они могут измениться. Наше исследование показало, что эта вторая конструкция — упреждающее уведомление о сбоях — является технической возможностью, которая предсказывает эффективность доставки программного обеспечения.

Как скрытые конструкции могут использоваться для системных данных

Некоторые из этих идей о скрытых конструкциях также распространяются и на системные данные: они помогают нам избежать ложных данных, используя ряд показателей для поиска похожих моделей поведения, и они помогают нам продумать то, что мы на самом деле пытаемся сделать. Предположим, что мы хотим измерить производительность системы. Мы можем просто собрать данные о времени отклика определенного аспекта системы. Чтобы найти похожие шаблоны в данных, мы можем собрать несколько фрагментов данных из нашей системы, которые могут помочь нам понять ее время отклика. Если подумать о том, что мы действительно пытаемся измерить, — о производительности, мы можем рассмотреть различные аспекты производительности и то, как еще она может быть отражена в системных метриках. Мы можем понять, что нас интересует концептуальный показатель производительности системы, который сложно измерить напрямую и который лучше фиксируется с помощью нескольких связанных показателей.

Здесь важно отметить следующее: все показатели являются опосредованными. То есть они представляют для нас какую-то идею, даже если мы сознательно не признаем ее. Это так же справедливо в отношении системных данных, как и в отношении данных опроса. К примеру, мы можем использовать время отклика в качестве косвенного показателя производительности нашей системы.

Если только одна из точек данных используется в качестве барометра и эта одна точка ошибочна или может стать таковой, мы этого не знаем. Например, изменение исходного кода, собирающего метрики, может повлиять на один показатель; и если были собраны данные только об одном показателе, вероятность того, что мы зафиксируем такое изменение, невелика. Однако, если мы соберем несколько метрик, у нас будет больше шансов обнаружить это изменение в поведении. Скрытые конструкции дают нам механизм защиты от неудачных показателей или злого умысла. Это справедливо как для опросов, так и для системных данных.