Помните, во вступлении к этой части книги было написано, что именно люди собирают статистические данные. Это они решают, что считать и как потом быть с результатами. В процессе сбора данных может возникнуть множество ошибок и перекосов, а это, в свою очередь, может привести миллионы людей к неправильным выводам. И хотя большинство из нас никогда не будут собирать данные, научиться критически думать об этом довольно легко и доступно каждому.
Данные получают самыми разными способами: изучая записи (например, касающиеся рождаемости и смерти, предоставленные государственным ведомством, больницей или церковью), проводя исследования и опросы, делая наблюдения (например, считая электрические автомобили, проносящиеся мимо на пересечении Основной улицы с Третьей) или путем умозаключений (если продажи подгузников ползут вверх, значит, вероятно, растет уровень рождаемости). Перекосы, неточности и откровенные ошибки могут появиться на любом этапе. Важно время от времени задаваться вопросами: «А мы и правда можем узнать об этом?» или «Откуда им это известно?»
Астрогеологи собирают образцы камней с лунной поверхности — они не исследуют Луну полностью. Исследователям не нужно разговаривать с каждым конкретным избирателем, чтобы понять, кто из кандидатов выбился в лидеры гонки, или вести подсчет всех, кто заходит в приемный покой, чтобы понять, как долго пациенту приходится ждать приема. Это было бы непрактично и слишком дорого. Специалисты используют выборки и на их основании строят оценки. Если выборки сделаны правильно, то оценка может быть в высшей степени точной. В случае с подсчетом голосов, например, узнать, каковы настроения в стране (а это примерно 234 миллиона человек в возрасте старше 21 года), можно, опросив 1067 человек. Биопсии 1/1000 органа достаточно для диагностирования рака.
Однако надо помнить, что выборка должна быть репрезентативной. А это бывает в случае, когда каждый человек или предмет в изучаемой группе имеет равные шансы быть выбранным. Если это не так, то ваша выборка окажется нерепрезентативной (перекошенной). Если рак обнаружен только в одной части органа, а вы делаете пробы на другой, то он не будет диагностирован. Если же он затронул лишь малую часть органа, а вы взяли 15 проб в этом месте, то вы можете сделать вывод, что весь орган покрыт раковыми клетками, хотя это совсем не так.
Мы не всегда знаем наперед — даже со всеми возможностями биопсии или опросами общественного мнения, — в каком интервале меняется изучаемый показатель. Если бы все элементы в совокупности были одинаковыми, то для выборки было бы достаточно одного из них. Будь у нас множество генетически идентичных людей с одинаковым внутренним миром и жизненным опытом, мы могли бы узнать все что угодно обо всех, просто изучив одного из них. Но каждая группа неоднородна, ее члены отличаются друг от друга, поэтому формировать выборку нужно очень аккуратно, чтобы точно знать, что мы охватили все возможные различия, которые имеют значение (потому что не каждое из них имеет значение). Например, мы знаем: если лишить человека кислорода, он умрет. В этом отношении люди друг от друга не сильно отличаются (хотя и отличаются по времени, которое они могут протянуть без кислорода). Но если я хочу узнать, сколько килограммов человек может поднять в технике жима лежа, начинаются различия — придется измерить показатель у большой группы самых разных людей, чтобы определить диапазон его изменения и стабильное среднее арифметическое. Я бы хотел опросить высоких и низких, полных и худых, мужчин и женщин, детей, бодибилдеров, домоседов, людей, принимающих анаболики, и трезвенников. Есть, наверное, и другие факторы, которые имеют значение, например сколько часов человек спал накануне тестирования, сколько времени прошло с момента последнего приема пищи, в гневе он или спокоен и т. д. Кроме того, есть вещи, которые мы вообще не считаем важными: кто был в тот день авиадиспетчером в аэропорту Сен-Юбер в Квебеке; обслужили ли случайно взятого посетителя в ресторане Абердина в тот день вовремя или нет. Это влияет на другие показатели, которые мы исследуем (латентный сексизм в индустрии авиаперевозок; удовлетворение посетителей в ресторанах Северо-Западного региона), но не на жим лежа.
В задачу статистика входит составление списка того, что имеет значение для получения репрезентативной выборки. Следует избегать наметившейся тенденции, когда переменные выбираются такие, чтобы было легко их идентифицировать или собирать по ним данные, — ведь бывает так, что значимые показатели не очевидны или их сложно измерять. Как говорил Галилео Галилей, следует измерять то, что измеримо, и делать измеримым то, что таковым не является. Некоторые наиболее творческие прорывы в науке оказались возможны потому, что были предложены способы измерить важные показатели, которые раньше измерять не умели.
Однако даже измерение и попытки контролировать переменные, о которых вы знаете, могут стать проблемой. Предположим, вы хотите изучить существующие на данный момент мнения об изменении климата в Соединенных Штатах. Вам выделили небольшую сумму денег, чтобы вы наняли помощников и купили статистическую программу для вашего компьютера. Так случилось, что вы живете в Сан-Франциско и поэтому решаете провести исследование здесь. У вас уже сложности: Сан-Франциско — нерепрезентативный город для всей остальной части Калифорнии, не говоря уже о Соединенных Штатах в целом. Понимая это, вы принимаете решение провести свой опрос в августе, поскольку, по результатам исследований, это самый пик туристического сезона и люди со всей страны едут в Сан-Франциско, так что (думаете вы) вы сможете изучить все многообразие мнений.
Но подождите: можно ли считать тех, кто приедет в Сан-Франциско, репрезентативной выборкой? Ведь вы будете учитывать только людей, которые могут себе позволить поездку, и тех, кто хочет провести свои каникулы в городе, вместо того чтобы, скажем, ехать в национальный парк (может даже случиться так, что вы невольно отдадите предпочтение либералам, так как Сан-Франциско известен своим либерализмом).
И тогда вы решаете, что не можете позволить себе исследовать мнение всех американцев и правильнее будет сконцентрироваться на жителях Сан-Франциско. Вы отправляете своих помощников на Юнион-сквер, где они будут останавливать прохожих и задавать им интересующие вас вопросы. Вы проводите инструктаж: вам нужны люди разных возрастов, этнической принадлежности, по-разному одетых, с татуировками и без них — короче говоря, вас интересует срез общества, самые его разные представители. Но у вас по-прежнему проблема: ведь вы вряд ли встретите на улице людей, прикованных к постели, молодых мам с маленькими детьми, тех, кто работает по сменам и отсыпается днем, а также сотни тысяч жителей Сан-Франциско, которые по каким-то причинам не придут в тот день на Юнион-сквер — в ту часть города, которая славится дорогими магазинами и ресторанами. Если вы отправите своих помощников в район Мишн-дистрикт, это поможет решить проблему социально-экономического статуса опрашиваемых, но не решит остальных ваших проблем. Выборка должна пройти такой тест: все ли представители группы имеют равные шансы попасть в нее? Очевидный ответ: нет.
В таком случае вы делаете стратифицированную случайную выборку. Это значит, что вы делите всю группу на страты или подгруппы, представляющие интерес, и набираете людей из них, соблюдая пропорцию по отношению к совокупности. Если вы проведете исследование, касающееся изменения климата, и обнаружите, что мнения не имеют ничего общего с расовыми категориями, вам не нужно будет создавать группы, основанные на расе. К тому же делать какие-то предположения насчет расы может быть затруднительно или оскорбительно — а что вы будете делать с людьми смешанной расы? Поместите их в одну категорию или другую, а может, создадите для них отдельную? И что же потом? Появится категория для американцев, рожденных в браках, где один родитель — афроамериканец, а второй — представитель европейского типа или латиноамериканец, в браках, где смешана восточноазиатская и иранская кровь, и т. д.? В таком случае категории могут стать слишком узкими, и это только затруднит ваше исследование. Другая сложность: вам хочется, чтобы опрашиваемые были разного возраста, но ведь бывает, что люди стесняются говорить, сколько им лет. Вы можете выбирать тех, кому явно за 40 или явно меньше, но при этом пропустите тех, кому около 38 или кто едва разменял пятый десяток.
Чтобы решить проблему с теми, кто отсутствует в течение дня, вы просто можете ходить по домам и разговаривать с каждым, кто откроет дверь. Но, опять же, если вы будете так ходить в дневное время, то упустите тех, кто на работе. Если вы будете ходить так по вечерам, то не учтете любителей клубной жизни, тех, кто работает посменно, тех, кто ходит в церковь на ночные службы, киноманов и тех, кто часто ходит в рестораны. А как, создав страты, вы получите случайную выборку в рамках ваших подгрупп? Все вышеописанные проблемы актуальны и по сей день — выделение подгрупп не решает той проблемы, что даже в рамках подгруппы вам нужно будет получить репрезентативное разнообразие других факторов, которые могут повлиять на ваши данные. Видимо, нам придется собрать все имеющиеся на Луне камни, чтобы провести качественный анализ пород.
Но не спешите сдаваться. Стратифицированная случайная выборка лучше нестратифицированной. Если вы наугад отберете несколько студентов для изучения полученного ими академического опыта, то, возможно, получите выборку студентов, которые учатся в крупных государственных вузах, — в случайную выборку, скорее всего, попадут именно они, потому что таких большинство. Вам известно, что студенческая жизнь в маленьких частных гуманитарных вузах складывается совершенно по-другому, поэтому вам нужно удостовериться, что в вашей выборке есть и такие студенты, — и в вашу стратифицированную выборку попадут студенты из учебных заведений самых разных размеров.
«Опросив каждую птичку, встретившуюся на тротуаре за пределами этого здания, мы пришли к заключению, что птицы предпочитают бейглы!»
Следует отличать случайную выборку от удобной — когда вы просто опрашиваете своих знакомых или людей на улице, которые кажутся вам подходящими. Без случайности выборки ваш опрос может оказаться предвзятым.
Именно из-за формирования выборок сбор данных может превратиться в бесконечную битву за отсутствие предвзятости. И исследователи побеждают не всегда. Всякий раз, читая в газете, что 71% британцев отдают чему-то предпочтение, мы должны спрашивать себя: «Да, но 71% каких именно британцев?»
Прибавьте к этому тот факт, что вопросы, которые мы задаем людям, — лишь выборка всех возможных вопросов, которые мы могли бы задать. Так же как их ответы, в свою очередь, могут быть всего лишь выборкой тех неоднозначных мнений и жизненного опыта, которыми они обладают. Что еще хуже, они могут понимать или не понимать, что мы спрашиваем, а пока они отвечают, их может что-то отвлекать. И гораздо чаще, чем хотелось бы тем, кто проводит опросы общественного мнения, люди намеренно дают неправильный ответ. Ведь люди — существа социальные; многие стараются избегать столкновений или хотят угодить и потому отвечают так, чтобы соответствовать ожиданиям. С другой стороны, есть ведь и такие члены общества, которые лишены избирательных прав или придерживаются нонконформистских взглядов и потому будут отвечать неискренне, примеряя маску этакого бунтаря, просто чтобы узнать, каково это — шокировать и бросать вызов.
Получить непредвзятую выборку не так-то просто. Когда вы держите в руках статистические данные, спросите себя: «А какой перекос мог получиться в этой выборке? Не смещена ли она?»
Выборка дает нам оценки чего-либо, и почти всегда они отличаются от истинного значения, сильно или не очень. Это называется погрешностью. Воспринимайте ее как цену, которую вы платите, чтобы не выслушивать каждого человека в группе или чтобы не изучать каждый отдельный камень на Луне. Конечно, ошибки могут возникнуть, даже если вы действительно поговорили с каждым, — так случается из-за дефектов измерительного аппарата. Погрешность не имеет ничего общего с неточностями в самом исследовании — скорее она отражает степень ошибки в самом процессе отбора данных для анализа. Но давайте на мгновение забудем об этом, поскольку есть еще один вид измерений, который сопровождает любую строго собранную выборку: доверительный интервал.
Погрешность показывает, насколько близки полученные результаты к истинным значениям, а доверительный интервал — это степень уверенности в том, что оценка не выходит за пределы этой погрешности. Например, в стандартном опросе, предполагающем выбор из двух возможностей, случайная выборка из 1067 взрослых американцев даст погрешность в 3% в любую сторону (напишем ±3%). Значит, если опрос покажет, что 45% американцев поддерживают кандидата А, а 47% — кандидата Б, истинное значение будет приблизительно между 42 и 48% для А и между 44 и 50% для Б. Обратите внимание, что получившиеся промежутки пересекаются. Это означает, что разница в 2% между кандидатом А и кандидатом Б находится в рамках погрешности: мы не можем сказать, что один из них на самом деле опережает другого, и потому сложно пока предсказать исход гонки.
Насколько мы уверены в том, что погрешность равна 3%, а не больше? Мы находим доверительный интервал. В приведенном мной примере рассматривался интервал с уровнем доверия 95%. Это означает, что если бы мы проводили голосование сто раз при использовании тех же самых выборочных методов, в 95 случаях из этих 100 полученный интервал содержал бы истинное значение. В 5 случаях из 100 истинное значение выходило бы за полученные рамки. При этом доверительный интервал не говорит нам, насколько сильно оно за них выходит: разница могла бы быть как большой, так и маленькой; для ответа на этот вопрос придется прибегать к другим статистическим методам.
Уровень доверия можно установить такой, какой хочется, но обычно это 95%. Чтобы сузить доверительный интервал, можно сделать одно из двух: либо при заданном уровне доверия увеличить размер выборки, либо для заданного размера выборки уменьшить уровень доверия. В случае с фиксированным размером выборки изменение уровня доверия с 95 до 99 увеличит размер интервала. В большинстве случаев дополнительные расходы или неудобства того просто не стоят, тем более что уже на следующий день или на следующей неделе под влиянием внешних факторов респонденты могут поменять свое мнение.
Обратите внимание, что для очень больших совокупностей — как, например, население США — нам нужно сделать очень маленькую выборку, меньше 0,0005%. Но для совокупностей поменьше — например, в случае с корпорацией или школой — доля попавших в выборку должна быть больше. В компании, штат которой составляет 10 000 сотрудников, нам бы пришлось отобрать 964 (почти 10%), чтобы получить 3%-ную погрешность с уровнем доверия в 95%, а в компании, где работает 1000 сотрудников, из них нужно отобрать 600 (60%).
Допустимая погрешность и доверительный интервал применимы к выборкам любого рода, не только к людям: можно отслеживать количество электромобилей в городе, злокачественных клеток в поджелудочной железе или ртути в рыбе, которую продают в супермаркете. Допустимая погрешность и размер выборки, представленные на графике ниже, указаны для доверительного интервала в 95%.
В конце книги вы найдете формулу, по которой можно подсчитать погрешность, а кроме того, существует множество онлайн-калькуляторов. Если вы видите, что статистический результат приведен, а погрешность не указана, можете подсчитать ее самостоятельно, просто выяснив количество людей, участвовавших в опросе. Вы увидите: такое случается на каждом шагу, а докладчик или организация, проводившая опрос, не предоставляет эту информацию. Это похоже на график без осей — можно легко обманывать с помощью статистики, просто не сообщая погрешность или доверительный интервал. Вот так, например: мой пес по кличке Шедоу занимает лидирующую позицию на выборах губернатора от штата Миссисипи, у него 76% голосов. (С не указанной в докладе погрешностью в ±76%. Голосуйте за Шедоу!!!)
Пытаясь получить случайную выборку, исследователи иногда допускают ошибки в оценке, имеет ли каждый человек или предмет равные шансы попасть в выборку.
В 1936 году во время выборов президента США была допущена вопиющая ошибка. Журнал The Literary Digest проводил опрос, из которого заключил, что на выборах республиканец Альф Лэндон победит тогдашнего президента, члена Демократической партии Рузвельта. The Literary Digest не построил случайную выборку, а опросил тех, кто читал журналы, имел автомобиль или пользовался телефоном. Общепринятое объяснение, процитированное позже во многих научных и популярных статьях, звучало так: в 1936 году такой принцип отбора увеличил долю состоятельных респондентов, а они чаще голосовали за кандидата-республиканца. На самом деле, согласно опросу, проведенному Джорджем Гэллапом в 1937 году, это общепринятое объяснение было неверно — владельцы автомобилей и телефонов гораздо охотнее поддержали бы Рузвельта. Дело в том, что у сторонников Рузвельта просто было меньше шансов принять участие в опросе. Гэллап обнаружил нерепрезентативность выборки, он провел свой собственный опрос, построив случайную выборку, и потому смог верно предсказать результат выборов. Так родилось понятие «опрос Гэллапа». И оно стало золотым стандартом проведения опросов политического мнения до 2012 года, когда произошла ошибка с определением будущего победителя президентских выборов в США. Как было выявлено в ходе расследования, во время формирования выборки были допущены грубые ошибки, по иронии судьбы связанные с опросом пользователей телефонной связи.
Так же, как телефонные опросы в 1930-е и 1940-е смещали выборку в сторону состоятельных людей, в этот раз выборка сместилась в сторону более пожилых респондентов. Опрос по телефону основан на том, что те, у кого есть телефоны, хорошо отображают мнение всего населения в целом. Однако это не обязательно: многие сотрудники Кремниевой долины используют для общения интернет-приложения, поэтому телефонная выборка может попросту не учитывать тех, кто пользуется высокими технологиями.
Если вы хотите схитрить с помощью статистики и замести следы, находите средний рост, опрашивая людей рядом с баскетбольным полем, узнавайте средний доход, проводя опросы возле центра занятости, оценивайте заболеваемость раком в стране, делая выборку рядом с плавильным заводом. Если вы сами не расскажете, как именно отбирали данные для анализа, никто и не узнает.
Те, кто хочет поучаствовать в исследовании, и те, кто не выражает особого желания, различаются по многим другим аспектам, например по политическим взглядам, характеру, достатку. Схожим образом те, кто откликается на объявление о наборе добровольцев для участия в эксперименте, могут иметь предвзятое мнение относительно того предмета, который вас интересует. Если вы стараетесь привлечь для исследования «среднего» человека, то можете сместить выборку, сообщив заранее тему опроса. Скажем, исследование сексуальной ориентации будет иметь смещение скорее в сторону тех, кто готов рассказать об этом открыто, нежели тех, кто скромен и придерживается пуританских взглядов. При изучении мнений, касающихся политики, выборка будет смещена в сторону респондентов, расположенных поговорить на эту тему. Поэтому многие опросники, анкеты и исследования никогда не объявляют заранее тему опроса либо просто камуфлируют истинную цель исследования несколькими незначительными вопросами, в ответе на которые исследователь совсем не заинтересован.
Те, кто отвечают на все вопросы до конца, сильно отличаются от тех, кто останавливается раньше времени. Некоторые респонденты попросту не хотят ничего отвечать. Это может создать необъективную картину, когда типы тех людей, которые отвечают, и тех, кто не желает, отличаются. В результате возникает особый тип смещения выборки, который называется ошибкой пропущенных данных.
Допустим, вы работаете в Гарвардском университете и хотите показать, что выпускники вашего учебного заведения, как правило, получают большие зарплаты уже через два года после окончания вуза. Вы рассылаете анкету выпускникам. И уже на этой стадии возникают сложности: те, кто переехал куда-то, не известив об этом университет, те, кто сейчас в тюрьме, или те, кто стал бездомным, попросту не получат ваши вопросы. А среди тех, кто на них ответит, большую часть, скорее всего, составят успешные люди, благодарные университету за то, что он для них сделал, а не те, кто в итоге потерял работу и теперь обижен на жизнь. Те, чьего мнения вы не учитываете, вносят свою лепту в ошибку пропущенных данных. Иногда данные при этом искажаются систематически.
Если ваша цель — показать, что образование, полученное в стенах Гарварда, напрямую обуславливает последующую высокую зарплату, то такое исследование поможет вам убедить большинство. Но критическое мышление, присущее отдельным людям, подскажет им, что тех, кто учится в Гарварде, ни в коем случае нельзя назвать средними представителями: это, как правило, выходцы из семей с высоким доходом, а данный показатель коррелирует с зарплатой выпускника. Студенты Гарварда отличаются предприимчивостью и энергией. Они могли бы заработать столько же и в том случае, если бы посещали колледж с репутацией похуже или вовсе бы не получили образования (Марк Цукерберг, Мэтт Деймон и Билл Гейтс — финансово успешные люди, которые когда-то вылетели из Гарварда).
Если вы просто не можете охватить какой-то сегмент совокупности, например военных, расквартированных за рубежом, бездомных или тех, кто находится в больнице или ином лечебном учреждении, смещение выборки будет называться ошибкой неполного охвата, потому что некоторые члены совокупности из которой вы намеревались сделать выборку, находятся вне зоны досягаемости, и поэтому их нельзя выбрать. Если вы пытаетесь подсчитать, сколько в банке мармеладных конфет красного, оранжевого или желтого цветов, то, возможно, не сумеете добраться до дна. Биопсия некоторых органов часто ограничена тем местом, где хирург может сделать забор материала, а оно, возможно, не репрезентативно относительно всей совокупности клеток. В психологических исследованиях подопытными часто становятся студенты последнего курса, хотя, строго говоря, они не могут быть репрезентативны относительно общей совокупности. В США наблюдается огромное разнообразие представителей разных систем ценностей, мнений и политических взглядов, люди различаются жизненным опытом и образом жизни. И хотя было бы ошибкой заявить, что все студенты одинаковы, такой же ошибкой было бы сказать, что они точно соответствуют остальной части совокупности.
Иногда во время опроса люди могут откровенно лгать. Выпускница Гарварда может преувеличить сведения о своих доходах, просто чтобы выглядеть более успешной или сообщить о том, сколько она должна была заработать, если бы не обстоятельства. Точно так же она может и преуменьшить цифры, и тогда Ассоциация выпускников Гарварда не будет ждать от нее больших пожертвований. Подобные хитрости могут смещать выборку, а могут и никак на нее не влиять. Среднее арифметическое, которое мы получаем в итоге в нашем исследовании относительно зарплат выпускников Гарварда, — это всего лишь среднее значение, выведенное из тех сведений, которые они предоставили, а не из их реальной зарплаты. У богачей вообще может не быть четкого представления о своем ежегодном доходе, потому что он не ограничивается зарплатой — тут еще много других источников дохода, которые разнятся от года к году, например доход от вложений, дивиденды, бонусы, роялти и пр.
Представьте, что вы спрашиваете у своих респондентов, списывали ли они на экзамене или пытались ли когда-нибудь уйти от налогов. Они могут не поверить, что ваше исследование абсолютно конфиденциально, и не захотят говорить откровенно. (Подобная проблема существует в США и с иммигрантами: невозможно оценить, сколько из них нуждаются в медицинском обслуживании или стали жертвами преступлений. Многие из них боятся обращаться в больницу или в полицию, так как опасаются, что за ними придут иммиграционные службы.)
Вот еще пример: вы хотите узнать, какого рода журналы читают люди. Можно просто спросить их об этом. Но ведь может быть и так, что они захотят произвести на вас хорошее впечатление. Или станут приписывать себе более тонкий вкус, которым в действительности не обладают. Вы можете обнаружить, что людей, заявляющих, будто они читают New Yorker или The Atlantic, намного больше, нежели вы предполагали исходя из продаж. А тех, кто читает Us Weekly и The National Enquirer, намного меньше. Респонденты не всегда честны во время опросов. И вы, выходит, изучаете не то, что люди читают, а их снобизм.
И тогда у вас рождается план: вы думаете отправиться прямиком к ним домой и посмотреть, что за журналы лежат у них в гостиной. Но искажения есть и здесь: вы не узнаете, что люди читают, — то, что вы увидите в гостиной, скорее расскажет вам о том, какие издания люди не выбрасывают после прочтения или что выкладывают на виду, желая произвести впечатление. Узнать, какие журналы они читают, сложнее, чем подсчитать те журналы, которые они покупают (или выкладывают). Но это очень важное разграничение, особенно для тех, кто занимается рекламой.
Как определить, отождествляет ли себя человек с несколькими расами? Если бы он вырос в общине, где живут люди определенной расы, то вряд ли был бы склонен думать о себе как о представителе нескольких рас. А если бы столкнулся с дискриминацией, у него было бы больше склонности к такому отождествлению. Мы могли бы точно определить смешение рас, но не факт, что люди расскажут об этом так, как нам бы того хотелось.
Все измерения должны быть стандартны. Должны существовать прозрачные, воспроизводимые, точные способы сбора данных, чтобы все, кто проводит исследования, формировали выборки одинаково. Возьмем шкалу Глисона — она весьма условна, а значит, вы можете получить разные заключения от разных патологов и, следовательно, диагностировать разные степени рака (образец ткани предстательной железы изучается под микроскопом и оценивается по шкале Глисона от двух до десяти — на основе этих данных можно высчитать вероятность развития рака). Психиатры расходятся во мнении относительно одного пациента: есть ли у него шизофрения или нет. Статистики не согласны с тем, что составляет суть психического феномена. Патология, психиатрия, парапсихология и другие сферы стараются создать определенные процедуры, проведение которых приводило бы к определенным результатам. Но почти все тесты дают неоднозначные ответы, из-за чего возникает несогласованность в диагнозах специалистов. Если вас попросят взвеситься, вы будете это делать в одежде или без нее, оставив кошелек в кармане или вытащив его? Если вам нужно будет проверить температуру стейка на гриле, вы остановитесь на одном результате или померяете температуру несколько раз и вычислите среднее значение?
Участники опроса могут неправильно понять вопрос интервьюера; поставить не там галочку в анкете; дать не тот ответ, который собирались. Ошибки в измерениях могут возникнуть в любой научной дисциплине. По сообщениям физиков Conseil Européen pour la Recherche Nucléaire (Европейский совет по ядерным исследованиям, ЦЕРН), им удалось измерить скорость нейтрино, которая оказалась больше скорости света, — факт, который мог занять достойное место среди величайших открытий последнего столетия. Позже, однако, ученые признали, что в их измерениях был обнаружен недочет.
Ошибки измерения возникают, когда мы пытаемся выразить что-либо количественно. Президентские выборы, проходившие в 2000 году в Америке, свелись к ошибке измерения (и неверному фиксированию намерений избирателей): у разных комиссий, занимавшихся подсчетом голосов, получились разные результаты. Отчасти так вышло из-за отсутствия согласованности в способе подсчета бюллетеней — но даже когда ясность была внесена, результаты все равно были неоднозначными.
Или вот еще пример. Всем известно, что когда мы подсчитываем монетки в банке с мелочью, то всякий раз получаем разные результаты. Если встать на весы в ванной три раза подряд, мы получим разные результаты. Измеряя длину комнаты, мы можем каждый раз получать новые цифры. И это объяснимо: пружины в ваших весах — несовершенное в плане механики устройство. Пользуясь сантиметром, вы всякий раз держите его по-разному, он каждый раз располагается немного по-разному или просто недостаточно длинный, чтобы можно было измерить всю комнату, — и вам приходится помечать место на полу и делать измерения в два или три приема, что только увеличивает вероятность ошибки. Даже сам инструмент, с помощью которого вы проводите измерение, может быть неточным (конечно, у измерительных приборов есть класс точности, и чем дороже прибор, тем этот класс выше). Напольные весы в ванной могут иметь погрешность в несколько десятков граммов, а у почтовых весов она составляет унцию (почти 30 граммов).
Во время переписи населения США в 1960 году было зафиксировано 62 молодых женщины в возрасте от 15 до 19, у которых было по 12 детей и больше, а также огромное количество 14-летних вдов. Здравый смысл уверяет нас, что не может такого быть, уж очень это все необычно. Видно, кто-то тут ошибся. Наверное, кто-то из респондентов случайно или специально отметил не ту графу, чтобы поскорее закончить с трудоемким опросом. А может, проказливые участники опроса навыдумывали диковинных историй, а исследователи и не заметили.
В 2015 году профессиональный клуб по американскому футболу New England Patriots был обвинен в обмане, так как якобы приспустил свои мячи, чтобы их было легче ловить. Защищаясь, представители клуба заявили, что была допущена ошибка измерения. Давление в мячах обеих команд, Patriots и Indianapolis Colts, в тот день проверяли в перерыве после первой половины матча. Первыми проверяли мячи команды Patriots. Мячи Colts пролежали дольше в теплой раздевалке, из-за чего нагрелись, и потому давление в них было выше. Суд федерального округа принял эту информацию, равно как и другие показания, к сведению и заявил, что не видит в поступках команды злонамеренности.
Ошибки в измерениях возникают и тогда, когда ваш измерительный инструмент — весы, рулетка, анкета или тест — не предназначен для того, что вы собирались измерить, например когда вы рулеткой меряете толщину человеческого волоса или предлагаете респонденту анкету с вопросами о депрессии, когда на самом деле изучаете вопрос мотивации. Подсчитать кандидатов, получивших финансовую поддержку от избирателей, совсем не то же самое, что знать, как последние проголосуют, — ведь многие поддерживают сразу нескольких кандидатов.
Огромное количество чернил уже было потрачено на исследования, предполагавшие показать одно, но показавшие в результате другое. Тест на IQ — как раз из тех, что чаще всего получает неверную трактовку. Его используют, чтобы оценить умственные способности человека, как будто это какое-то одно качество. На самом деле, конечно, это не так — способности проявляются в самых разных формах: ориентировании в пространстве, знании искусства, математики и т. д. Как известно, в тестах на IQ есть некий перекос в сторону белых людей среднего класса. По результатам такого теста мы хотим понять, насколько человек подходит для усвоения определенной школьной программы или выполнения работы. Тесты на IQ могут предсказывать успешность испытуемых в таких ситуациях, но, вероятно, не потому, что человек с высоким IQ гораздо умнее, а потому, что у него много других преимуществ (экономических, социальных), которые и выявил тест.
Если в основе статистических данных, которые вы держите в руках, лежит исследование, постарайтесь выяснить, какие вопросы задавались, и посмотрите, достаточно ли они разумны и непредвзяты. Постарайтесь также понять, как проводили измерение исследуемого предмета и был ли тот, кто собирал данные, достаточно квалифицирован.
То, как понятия определяются и распределяются по категориям, влияет на статистические данные, которые вы получите в результате. С этой проблемой часто сталкиваются в естественных науках, например когда диагностируют стадию рака или описывают количество осадков. А в общественных науках такое случается, когда у респондентов спрашивают об их мнении или опыте.
Был ли сегодня дождь в Большом Сент-Луисе? Все зависит от того, что вы называете дождем. Если упала одна-единственная капля на территории в 8846 квадратных миль, входящих в состав Большого Сент-Луиса (согласно Административно-бюджетному управлению США), можно ли сказать, что шел дождь? Сколько капель должно упасть, над какой по размеру территорией и за какой период, чтобы мы считали, что в этот день выпали осадки?
В зависимости от выбранного рабочего определения у Бюро статистики труда США есть два разных способа замерить уровень инфляции: личные потребительские расходы (ЛПР) и индекс потребительских цен (ИПЦ) могут давать разные результаты. Если вы сравниваете два года или два региона страны, вам, конечно, нужно убедиться, что вы в обоих случаях используете один и тот же индекс. Если же вы просто хотите продемонстрировать, как сильно изменилась инфляция в последнее время, то, будь вы недобросовестным пользователем статистики, вы выбрали бы из двух тот, что производит большее впечатление, а не тот, что кажется более подходящим, — вы бы руководствовались пониманием их различий.
Или вот еще пример: что значит «бездомный»? Это тот, кто спит на тротуаре или в машине? Ведь у человека, может, и есть дом, но он не хочет туда идти. А как быть с женщиной, которая временно живет у подруги, потому что потеряла свою квартиру? Или с семьей, которая продала свой дом и теперь живет несколько недель в отеле, ожидая, пока в новом доме закончится ремонт? Или со сквоттером, который счастливо живет на заброшенном складе? При сравнении такого явления, как бездомность, в разных городах и штатах мы будем иметь дело с разными — с юридической точки зрения — определениями. И даже если они будут стандартизированы, то могут отличаться от того, что вы вкладываете в это понятие. Отсюда и невозможность решить проблему в больших городах — мы просто не понимаем, кто подходит под этот критерий.
Всякий раз, сталкиваясь с новостным репортажем, в котором упоминаются новые исследования, нужно быть внимательным с определениями, которые получили те или иные элементы исследования, и решать для себя, приемлемы ли они и разумны ли. Это особенно важно, когда речь идет о таких острых темах, как аборты, брак, война, изменения климата, минимальная заработная плата, жилищная политика.
Нет ничего более политизированного, чем политика. Любое определение можно перекрутить и переиначить согласно тем целям, которые вы преследуете. Представьте, что кандидат на какой-то политический пост нанял вас, чтобы собрать информацию о своем оппоненте, Алисии Флоррик. Если только ей не удалось покорить сердца абсолютно всех избирателей, они так и будут чем-нибудь недовольны. Вам нужно задать вопрос: «Есть ли что-нибудь, с чем вы не согласны или чего вы не одобряете в ее словах и поступках, даже при условии, что вы ее поддерживаете?» Теперь почти у всех найдутся хоть какие-нибудь претензии, и вы сможете ответить своему работодателю: «81% опрошенных не одобряют действия Флоррик». Вы собрали данные по одной детали (пусть это было всего лишь небольшое недовольство) и создали некий массив однотипных жалоб, назвав его на новый лад — «неодобрение». А что, звучит почти справедливо.
Термин GIGO («Garbage in — garbage out») был придуман первыми компьютерщиками и означает «Мусор на входе — мусор на выходе». Было время, когда пользователи слепо верили всему, что выдавал компьютер, потому что это выглядело чем-то точным и несомненным. Если статистика складывается из неаккуратно собранных данных, измерений, предположений, недопониманий, упрощений и неверных оценок, то и результат будет соответствующим.
Многое из того, что мы читаем, должно вызывать подозрения. Задайте себе вопрос: возможно ли вообще, чтобы кто-нибудь знал об этом? В газетах пишут о количестве суицидов, совершенных подростками нетрадиционной ориентации: геями и лесбиянками. Да ни одна из подобных статистических выкладок не имеет никакого веса, особенно если принять во внимание тот факт, что довольно сложно определить, наступила ли смерть в результате самоубийства и был ли человек геем. Точно так же, с некоторым подозрением, стоит относиться и к сообщениям о количестве смертей, наступивших в результате голода в отдаленных районах, или о количестве жертв геноцида во время гражданской войны, а также к информации об убитых и раненых во время военных операций США в Ираке и Афганистане.
Один издатель хвастается, что у его журнала 2 миллиона читателей. Но откуда он это знает? А он и не знает. Он предполагает, что некоторую часть купленных номеров потом дают почитать кому-то еще, — он называет эту часть долей вторичных читателей. Он предполагает, что каждый номер журнала, который закупила библиотека, читается определенным числом людей. То же касается книг, а также их электронных версий. Конечно, тут нельзя обобщать, все зависит от книги. Многие купили книгу Стивена Хокинга A Brief History of Time. Говорят, что это самая покупаемая книга за последние 30 лет. Но также говорят, что очень немногие дочитывают ее до конца. Вероятно, немногие дают ее почитать, потому что кажется престижным просто иметь ее в своей гостиной. Но сколько же на самом деле читателей у журнала? Сколько людей действительно слушают подкаст? Нам это неизвестно. Мы знаем, сколько экземпляров было продано или загружено, и на этом все (хотя новые технологии в области электронных книг могут изменить этот давно устоявшийся статус-кво).
В следующий раз, прочитав о том, что в среднем житель Новой Зеландии использует зубную нить 4,36 раза в неделю (цифра, которую я только что выдумал, но она вполне может оказаться правдивой, как и любая другая оценка), спросите себя: «А как автор статьи об этом узнал? На какие данные он ссылается?» Если бы в ванных комнатах стояли скрытые камеры, это было бы одно. Но ведь, скорее всего, об этом рассказывали сами люди, отвечая на вопросы анкеты, и сообщали они только то, что помнят, — или то, что считают правдой, потому что уж так мы устроены.