Оценивание мотивов, осуществляемое по картинам воображения человека, удовлетворяет критериям сенситивности и уникальности, которые важны для хорошо организованного измерения, но плохо отвечают критерию надежности. Действительно, фантазии вызывают у психологов некоторое беспокойство, потому что они «сейчас» отмечаются, а потом нет. Подобное качество – весьма сильный противовес настоящему научному измерению. Одни специалисты по психоанализу отмечают в сновидениях одни паттерны мотивов, тогда как другие психоаналитики опознают совершенно иные. В табл. 6.4 упоминаются такие способы оценивания, которые позволяют добиться высокой степени согласия между наблюдателями. Критерий наличия или отсутствия образов достижения, власти или аффилиации и их субкатегорий объективен, а значит, наблюдатели способны научиться тому, как совпадать в подсчетах, совершаемых для ряда историй.
Алгоритм установления надежности. Можно применить два метода проверки надежности измерения. Первый предполагает выявление процента совпадающих суждений относительно существования той или иной категории. Предположим, два эксперта, А и Б, делают подсчеты по шести историям, определяя наличие или отсутствие в них образов достижения. Скажем, эксперт А подсчитывает их в историях 1, 3 и 5, а эксперт Б 1, 3, 5 и 6. Процент согласия вычисляется умножением числа рассказов, относительно которых эксперты сошлись во мнении, что там присутствуют искомые категории (например, три), на два: 3 х 2 = 6 – и делением на общее количество тех историй, в которых каждый эксперт обнаружил присутствие данной категории (в предложенном нами варианте 3 + 4 = 7). В результате получается пропорция 6/7, или 86 %, репрезентативные для меры совпадения в оценках, обычных для различных категорий в системах подсчета тех или иных мотивов.
Обратим внимание на знаменатель в этой пропорции, показывающий, сколь часто эксперты оценивают искомую категорию, поскольку это в известной мере варьируется. Если же обращаться только к проценту согласия экспертов, не касаясь количества оцененных историй, степень единодушия окажется номинально весьма высокой, когда какой-либо один эксперт расценивает каждую историю как содержащую рассматриваемую категорию.
Процент согласия – убедительное исчисление, позволяющее судить о надежности измерения, потому что в нем не учитывается единство мнений относительно отсутствия той или иной категории. И причина здесь не в том, что некоторые из таких категорий абсолютно неповторимы. Если бы включались оценки, касающиеся их отсутствия, показатели надежности расшифровки историй были бы неоправданно высокими. Предположим, эксперт А вычленяет образы «помощи», проводя подсчеты по мотиву достижения, обратившись к истории 1, а эксперт Б – к истории 3. Они расходятся в суждениях относительно ее наличия, но согласны, что таковая отмечается в четвертой из историй, в результате окажется 75% совпадения оценок ((2 х 4)/12), которые представляются явно завышенными.
Другой алгоритм установления надежности – определение корреляций между оценками, которые получает индивидуум, у двух разных экспертов. Если последние хорошо обучены данной процедуре, корреляции колеблются в диапазоне 0,85-0,95. Это означает, что два разных эксперта достигли общности в подсчетах, касающихся одного и того же человека (см. McClelland et al., 1953; Winter, 1973). Вместе с тем здесь возникает определенная сложность. Она заключается в том, что такое измерение чисто технически способно привести к высокому уровню корреляций между двумя рядами оценок, при этом один эксперт определяет в целом больше оценок, чем другой. Таким образом, среднее значение баллов для группы лиц будет выше у эксперта А, чем у Б, даже если между ними нет разногласий в порядке классификации двух рядов субъектов. Итак, можно привлечь одного эксперта, чтобы сравнить оценки всех испытуемых, или двух специалистов, чтобы проверить их подсчеты и достичь унифицированного уровня оценок.
Тест-ретестовая надежность. Критерий надежности также означает, что хотя люди проходят тестирование вновь и вновь, оценивается один и тот же мотив. Существует известный способ проверки надежности, состоящий в разделении теста на две соотносимые части, чтобы установить, оценивается ли человек одинаково по обеим половинам. Это порой называется методом распределения, который и позволяет оценить надежность измерения. Например, если студент получает по мотиву достижения 4 балла в ситуациях с использованием картинок А, В и Д, а по изображениям Б, Г и Е – от 3 до 5, то оценки выше –1 демонстрируют существенное несоответствие двух частей теста. В «Мотивации достижения» (McClelland et al., 1953) отмечается высокий коэффициент корреляции – 0,64, полученный применительно к ряду оценок мотива достижения с использованием двух групп изображений, по три в каждой. Но осуществленный позднее обзор исследований позволил предположить, что коэффициент внутренней непротиворечивости в целом колеблется от 0,30 до 0,40, обнажая неудовлетворительную надежность измерений по традиционным психометрическим стандартам (Entwisle, 1972). Вместе с тем с оценками, которые выносятся по самоотчетам, корреляция достаточно высокая – от 0,70 до 0,90 (Entwisle, 1972; McClelland, 1980).
Как утверждают Аткинсон, Бонгорт и Прайс (Atkinson, Bongort & Priсe, 1977), традиционная психометрическая теория неточна в постулировании того, что реакция на какой-либо пункт теста (в данном случае речь идет об историях, которые сочиняются по какой-либо картинке)– это автономное явление, как бы независимый тест силы проявления такой основной характеристики, как мотив достижения. Вместо этого они предложили свою теоретическую позицию, согласно которой поток мыслей непрерывен. По их представлению, реакции относятся к мотивам достижения, аффилиации или власти, причем на уровне мышления они постоянно противоборствуют между собой, какая же из них будет проявлена. Если тенденция к достижению выражается в связи с первой картинкой, она «полностью истощается» и сполна реализуется, так что следующая мощная тенденция – скажем, аффилиации – будет заявлена в следующей истории. Итак, не стоит ожидать последовательности в направлении реакции от одного раздела теста к следующему. Действительно, как следует из хорошо известного в психологии феномена, называемого ассоциативной рефракторной фазой (см. Telford, 1931), испытуемые вряд ли повторят ассоциацию, которая у них возникла.
Аткинсон и Берч (Atkinson & Birch, 1978) продолжили анализировать проблему и разработали компьютерную программу, которая с известной долей вероятности воспроизводит графики, что показаны на рис.6.11. В этой модели отмечены три тенденции, между которыми возникает конкуренция оказаться проявленными. Выше отмечалось, что испытуемым предлагали четыре истории. Соответственно и временная линия делится на четыре равных отрезка. Тенденция Х – обозначение мотива достижения. Если мы суммируем все время, отведенное на отражение Х в четырех историях (когда такая тенденция сильнее, чем желание написать об Y и Z), получится 7, 3, 4 и 5. Если мы сравним тенденцию к достижению, выраженную в историях 1 и 4, с уровнем ее преломления в историях 2 и 3 – по двум альтернативным частям теста, будет 12 и 7 – цифры, показывающие большое несоответствие или низкую степень согласованности.
Используя эту программу, Аткинсон, Бонгорт и Прайс (Atkinson, Bongort & Priсe, 1977) создали 25 компьютерных моделей; согласно каждой испытуемые произвольно классифицировались как имеющие высокий, средний и низкий уровень мотива достижения. Авторы выявляли пропорцию времени, которое каждый субъект тратил на размышление о достижении, и различных предположений о внутренней согласованности измерений (с учетом перехода от одного временного отрезка к другому). Их критерий валидности общего времени, затраченного на размышление об измерении Х, служил мерой соответствия уровню мотива достижения, определяемому компьютерной программой предварительно и в индивидуальном порядке. Итак, если человек определен в верхнюю треть распределения оценок по мотиву достижения, то, согласно компьютерной модели, он попадет в верхнюю треть по параметру расходования времени на размышление о достижении.

Рис.6.11. Тенденция определенной реакции быть выраженной за промежуток времени, отведенный на сообщение четырех историй (after Atkinson, 1980)
На рис. 6.12 отображена конструктная валидность (как процент лиц, правильно отнесенных к разным третям распределения по мотиву достижения, когда измерялось время, затрачиваемое на выполнение задания). Данные приводятся в сравнении с показателями внутренней непротиворечивости оценок (с использованием альфы Кронбаха, дающей более генерализованное измерение внутренней согласованности, чем при установлении обычной корреляции по эквивалентным частям распределения). Отметим, что общее время, которое занимают мысли о достижении, – отличный показатель «истинности» подсчетов по мотиву достижения, даже в тех случаях, когда внутренняя согласованность измерения очень низкая или порой имеет отрицательные величины. Вывод исследователей заключается в том, что «конструктная валидность тематических апперцептивных измерений не требует наличия внутренней согласованности относительно критерия надежности, предполагаемой традиционной теорией проведения тестов» (Atkinson et al., 1977).
Не каждый исследователь примет те допущения, которые сделали Аткинсон и Берч, разработав свою компьютерную модель. Кто-то попросту столкнется с проблемой принятия решения, какие подсчеты следует совершить, если они оказываются различающимися при обращении к разным частям теста. Но менее всего этот подход предполагает особую заботу об обеспечении внутренней непротиворечивости при измерениях такого рода.
Другой способ рассмотрения измерений силы мотива по фантазиям людей представляет модель множественной регрессии, когда изображения выступают автономными оценками истинных показателей. Подобный путь полезен в том случае, если итоговые оценки продиктованы несколькими детерминантами, не связанными друг с другом. Соответственно доля какого-либо детерминанта в общих подсчетах окажется больше, если не будет воздействия подобной взаимосвязи. Макклелланд (McClelland, 1980) предложил различать следующее: мотивы в психологии позволяют объяснить «противоречивость поведения, в то время как привычки – его логичность. Когда голодная собака пытается выбраться из клетки в поисках пищи, проявится широкий круг различных реакций. Почему же мы ожидаем, что собака продемонстрирует внутренне согласованные действия? Если животное начинает скулить, то тому есть свои причины. Если же оно пытается протиснуться через перекладины, это не то же самое, когда собака скребет по задвижке. Не следует здесь ждать высокой степени корреляции между такими реакциями, также не стоит ожидать ее между признаками мотивации достижения, отмечаемыми в разных историях». Речь должна идти о целом всех реакций, что могло бы стать лучшим индикатором силы мотива.

Рис.6.12. Взаимосвязь конструктной валидности и внутренней согласованности измерения (а). Выявлена по 25 случаям моделирования заданных переменных согласно тесту тематической апперцепции (ТАТ) и параметров оценки. Конструктная валидность отражает процент лиц, верно отнесенных (по параметру времени деятельности, направленной на достижение) к одной из трех частей распределения, связанной с подлинной силой рассматриваемого мотива, определенной по компьютерным данным (after Atkinson, 1978, after Atkinson, Bongort & Priсe, 1977)
Влияние склонности быть креативным или последовательным. Но вновь возникает проблема. Корреляция общей оценки по мотиву достижения или мотиву власти, которая получена по 4–6 историям, расходится с аналогичными подсчетами, сделанными относительно тех же самых испытуемых, но при иных обстоятельствах. Корреляции, как правило, варьируют от 0,20 до 0,40 (Entwisle, 1972; McClelland et al., 1953; Winter, 1973), а это означает, что надежность измерений слишком слабая, чтобы претендовать на обстоятельность. Отчасти такая вариабельность обусловлена тем, что не соблюдалось главное условие подлинной надежности тестирования: испытуемые проходили его во второй раз в иной ситуации, чем это было сначала. Соответственно они настроены реагировать при повторной проверке по-другому. Картинки ими уже были просмотрены, и люди удивлялись, почему их просят пройти тест снова. Инструкции побуждали к тому, чтобы «быть креативными», и это интерпретировалось субъектами таким образом, что они должны сочинить «другую историю» относительно той же самой картинки. Они настроились на креативность. Но если они выдумывали разные истории на одни и те же изображения, то и оценки мотива вряд ли могли быть одинаковыми. Даже когда использовались разные картинки, тест-ретестовая корреляция не была выше, что, вероятно, объясняется не только тем, что испытуемые находились под впечатлением от задания проявить креативность и потому сочиняли иные рассказы, но скорее всего тем, что находили такой опыт необычным, удивляясь происходящему.
Как показывают результаты Ланди, рассмотренные выше, если люди чувствуют какой-либо подвох, исходящий от процедуры, и не могут полностью расслабиться, полученные оценки будут нормативными, стереотипизированными, но никак не личного плана. Проблема заключается в том, каких же исчислений, касающихся конкретного человека, придерживаться. В целом исследования показали, что оценки, полученные в первом тестировании, оказываются более валидными, нежели аналогичные оценки, выявленные при повторном испытании. Это, судя по всему, обусловлено, тем, что надобность второй раз пройти тест не была понята субъектами (см. Atkinson, 1980).
Винтер и Стюарт исследовали вероятность того, что настрой «быть креативным» привел к снижению тест-ретестовых корреляций. Они предложили испытуемым следующие инструкции: «Не надо беспокоиться о том, будут ли похожи ваши истории на те, что вы написали ранее, или окажутся отличающимися от них. Пишите тот рассказ, какой хотите» (Winter & Stewart, 1977). Когда проверка проводилась с применением данной инструкции, тест-ретестовая корреляция, касающаяся оценок мотива власти, возросла до 0,58 по сравнению с 0,20, полученными при повторном тестировании с использованием обычной инструкции «быть креативными». Ланди (Lundy, 1981b) позднее протестировал учащихся высших учебных заведений и также говорил студентам, что им предоставляется полная свобода рассказывать любые истории – будь они повторением выдуманных в последний раз или новыми. Он получил тест-ретестовую корреляцию на уровне 0,56, которая согласуется с критерием стабильности измерений по опросникам, проведенным через год.
В определенном смысле вопрос о надежности оценки дополняет проблему сенситивности. Измерение мотива, основанное на расшифровке паттернов спонтанных мыслей, оказывается особенно зависимым от ситуационного волнения. Следовательно, по сравнению с принятыми в психологии исследованиями в точности повторить эксперименты по выявлению мотива и получить одинаковые исчисления применительно к одним и тем же лицам из раза в раз – весьма затруднительно. Однако результаты будут достоверными, если позаботиться о том, чтобы испытуемые не чувствовали себя скованными, и исключить проявление особых реакций.
Клингер (Klinger, 1968) осознал эту проблему, но выбрал неверный путь ее разрешения. Он тестировал испытуемых в звуконепроницаемой комнате, размером 7x7 футов, не допуская контактов с экспериментатором. Инструкции давались с помощью знаков, аудиозаписей, слайдов, фильмов. Людей просили побыть в тихой обстановке 25 минут, чтобы свести к минимуму такие моменты, как ассоциативная вариабельность. Это не привело к увеличению надежности измерений. Как отметил Винтер (Winter, 1973), ситуация для человека, согласившегося пройти такое испытание, была весьма специфической. Подобное не во всем соответствует высказанному ранее Г. А. Мюрреем настойчивому требованию создавать для испытуемых такие условия, чтобы люди не чувствовали напряжения, пребывали в непринужденном состоянии, что дает более валидные и надежные оценки мотивации.
Корреляции тест-ретестовой и внутренней надежности для оценок по самоотчетам и клиническим заключениям относительно силы мотива более высокие – на уровне 0,70-0,90. Относительно клинических заключений следует сказать, что не следует придавать им слишком большое значение, потому что, как отмечалось в последнем разделе, эксперты реагируют на некоторые из общего числа образов воображения, оценивая более или менее стабильные, оставляя, как правило, в стороне какие-либо специфические мотивационные аспекты личности испытуемого.
Отмечаемая согласованность самоотчетов кажется известным преувеличением «истинной» непротиворечивости по нескольким причинам. Важно понимать, что люди, отвечая на пункты опросника, следуют инструкции быть последовательными, говорить правдиво и откровенно. Если же они дают иной ответ во втором случае, то могут посчитать это нечестным или вообще решить, что они недостаточно знают себя. Тенденция к непротиворечивости приводит к тому, что в реакциях сказывается стремление признавать или отрицать неблагоприятные свойства или соглашаться или не соглашаться с большинством пунктов.
Более того, людям, как правило, задают до известной степени одинаковые вопросы, прибегая при этом к множеству разных способов (см. табл. 6.5). Если человек в одной части опросника утверждает, что очень привязан к своим друзьям, его заявление в другой части о том, что он не стремится проводить много времени с ними, может представлять собой проявление его честности или интеллекта. Если он говорит, что ставит перед собой сложные цели, вполне резонно его согласие с утверждением, что он трудится как раб.
Хуже всего то, что многие анкеты по мотивации содержат пункты, касающиеся прошлого человека, которые всякий раз, когда тот отвечает на вопрос, предполагают одну и ту же реакцию. Если люди утверждают, что припоминают «пресыщенность» чем-либо, они могли бы сказать, что каждый раз противостоят этому. Сложность с такими пунктами заключается в следующем: они учитываются при подсчетах как показатель существования определенной потребности, при этом личность может уже измениться. В таком случае критерий сенситивности приносится в жертву надежности. Все же следует отметить, что в большей мере требованиям последней отвечают вопросники по самоотчетам, хотя до некоторой степени показатели оказываются завышены.