Книга: Мозгоускорители. Как научиться эффективно мыслить, используя приемы из разных наук
Назад: Часть IV. Эксперименты
Дальше: 10. Эксперименты естественные и подлинные

9. Не слушайте «гиппопотамов»

Вскоре после того, как Барак Обама объявил о своем намерении баллотироваться в президенты на выборах осенью 2007 г., председатель совета директоров компании Google Эрик Шмидт взял у него интервью на пресс-конференции с участием работников компании. В начале Шмидт в шутку спросил Обаму: «Как лучше всего сортировать миллион 32-разрядных чисел?» Не дожидаясь, когда Шмидт задаст первый серьезный вопрос, Обама быстро ответил: «Мне кажется, метод пузырьковой сортировки лучше не использовать». В принципе это был верный ответ, и Шмидт в изумлении хлопнул себя по лбу, а аудитория разразилась аплодисментами. Позже в ходе интервью Обама заверил аудиторию: «Я свято верю в разум, факты, доказательства, науку и обратную связь». Он пообещал, что, заняв пост, будет руководствоваться именно этими принципами.
Присутствовавший на пресс-конференции менеджер по продукции Дэн Сирокер тут же, на месте принял решение работать на Обаму: «Он меня покорил этой пузырьковой сортировкой».
Сирокеру было что предложить штабу предвыборной кампании Обамы. Он объяснил сотрудникам штаба, как правильно проводить А/В-тестирование (оно же сплит-тестирование). Если вы не знаете, какой метод или процедуру лучше выбрать, чтобы достичь нужной цели, сравните их, решив с помощью подбрасывания монетки, кто будет использовать метод А, а кто — метод Б. Затем вы собираете интересующие вас данные и анализируете их, сравнивая средние результаты метода А со средними результатами метода Б с помощью любого подходящего статистического теста.
В этой главе дается детальное объяснение того, что из себя представляет А/В-тестирование и как правильно применять его принципы в профессиональной деятельности и в повседневной жизни. Если вы поймете, как создается настоящий эксперимент, вы будете отлично подготовлены к восприятию и критике квазинаучных открытий, публикуемых в СМИ.

 

А/В-тестирование
К тому времени, когда Дэн Сирокер присоединился к работе над сайтом предвыборной кампании Обамы, разработчики из Google и других интернет-компаний уже несколько лет тестировали различные варианты вебстраниц в режиме онлайн. Вместо того чтобы полагаться на мнение «гиппопотамов», как насмешливо называют людей с самыми высокими доходами (от HiPPO — highest-paid person’s opinion), они руководствовались только неоспоримыми фактами, выбирая, какой вариант лучше работает. Одной группе пользователей предложили дизайн страницы с преобладанием синего цвета, другим пользователям — с преобладанием красного цвета. Им нужна была информация о «проценте кликнувших». В теории каждый элемент дизайна веб-страницы — от цветовой гаммы и до расположения текста и картинок — нужно одновременно тестировать на случайно выбранных пользователях. Именно такие доказательства (а не мнения видных экспертов) стали решающим фактором при выборе элементов дизайна сайта.
А/В-тестирование при разработке политических сайтов применялось просто и незатейливо. Главный вопрос — какой дизайн веб-страницы даст наибольшее число зарегистрировавшихся на сайте, то есть наибольшее количество адресов электронной почты сторонников и потенциальных жертвователей? Какая кнопка соберет больше подписчиков — «Узнать больше», «Присоединиться сейчас» или «Подписаться сейчас»? Какая картинка покажется наиболее привлекательной — светлый портрет Обамы на бирюзовом фоне, черно-белая фотография его семьи или видео с записью выступления Обамы?
Мне кажется, вы не догадались бы, что наиболее эффективным оказалось сочетание кнопки «Узнать больше» и семейной фотографии. И не просто наиболее эффективным. Это сочетание принесло на 140% кликов больше, чем наименее удачное сочетание, что означало огромную разницу в числе пожертвований и голосов.
Веб-дизайнеры на своем опыте удостоверились в правоте догадки, которую социальные психологи высказали десятилетия назад о поведении человека в новых для него ситуациях. Сирокер выразил эту мысль так: «Предположения обычно оказываются неверными».
Начиная с 2007 г. сплит-тестирование играет важную роль при принятии различных решений во всех политических кампаниях Обамы. Политтехнолог и бывший социальный психолог Тодд Роджерс провел для президента США десятки экспериментов. Некоторые из них походили на гадание. Что принесет больше пожертвований и голосов на выборах — автоматический звонок от Билла Клинтона или живой звонок от волонтера? (Выяснилось, что последнее гораздо эффективнее.) А визит волонтера прямо перед выборами — самый эффективный способ уговорить кого-то пойти на выборы.
В настоящее время проводится масса исследований, цель которых — найти самый эффективный способ получения максимального количества голосов на выборах. Что более эффективно стимулирует людей к походу на избирательные участки — если вы скажете им, что ожидается низкая или высокая явка? Некоторые думают, что, если сказать, что явка на выборах обещает быть низкой, это заставит их пойти проголосовать. Быстрый анализ эффективности затрат показывает, что в этом случае ваш голос будет иметь большее значение, чем при высокой явке. Но вспомните, как восприимчивы люди к влиянию социума. Они хотят делать то, что делают другие люди, похожие на них. Если большинство окружающих много пьют, они тоже будут пить; если большинство не пьет, они тоже бросят. Если большинство использует полотенца в отеле несколько раз, другие поступят так же. Поэтому, если сказать избирателям, что явка в их районе будет очень высока, это будет гораздо эффективнее, чем если сказать им, что явка будет низкой.
Эффективно ли давать людям понять, что вы знаете, что они голосовали на прошлых выборах — и что после этих выборов вы вновь проверите, проголосовали ли они? Людям нравятся быть хорошими гражданами в глазах других людей — и в своих собственных глазах тоже. Поэтому вас не должно удивлять, что обещание проверки может увеличить явку на 2,5%, а то и больше. Но только сплит-тестирование может показать, принесет ли тактика обещанной проверки положительный или отрицательный результат и будет ли результат вообще.
Как в 2008-м, так и в 2012 г. у штаба Обамы было много припрятанных в рукаве козырей, которые стали полной неожиданностью для республиканцев. В 2012 г. республиканский кандидат Ромни был настолько уверен в своей победе, что даже не приготовил речь на случай поражения.
Однако республиканцы и сами отлично умеют играть в подобные игры со сплит-тестами. Еще в 2006 г. работникам предвыборного штаба губернатора Техаса Рика Перри стало ясно, что рассылки по электронной почте, оплаченные телефонные звонки и устанавливаемые на газонах агитационные щиты практически не приносят результата. Поэтому штаб Рика Перри не тратил на них деньги, а максимально использовал телеканалы и радиостанции. Чтобы узнать, какие способы агитации являются наиболее эффективными, они выбрали 18 телевизионных каналов и 30 радиостанций и установили даты начала кампании. С помощью опросов общественного мнения организаторы выборной кампании отслеживали, какие избиратели склоняются на сторону Перри. Случайный характер опроса повышал точность результатов. Сотрудникам не разрешалось выбирать метод агитации для определенной местности и контингента избирателей. Если бы они выбирали сами, результаты опросов могли бы быть лучше за счет изменения условий в данном месте, а не из-за того, поместили там рекламу или нет.
В бизнесе сплит-тестирование может быть не менее полезно, чем в политике, потому что исследователи могут поделить население на группы и опробовать на каждой разные методы, сделав выбор случайным образом. Если число случаев (N) очень велико, можно отследить даже незначительную разницу. К тому же в бизнесе, как и в политике, даже небольшое улучшение результата может сыграть решающую роль.

 

Делая деньги, твори добро
Еще более эффективно используют сплит-тестирование в торговле. Мерчандайзеры считают, что А/В-тестирование одинаково полезно и для повышения качества жизни людей, и для получения дохода.
Сплит-тестирование в одном из супермаркетов города Эль-Пасо проводилось для того, чтобы определить наиболее эффективный способ увеличения продаж фруктов и овощей. Если класть в тележку для продуктов специальный разделитель, на котором написано «Пожалуйста, кладите фрукты и овощи впереди», можно вдвое увеличить продажи овощей и фруктов, что гораздо выгоднее для магазина, чем продажа любых других продуктов, и при этом полезно для здоровья покупателей. Исследователи учитывают и значение влияния социума. Таблички, сообщающие покупателям о том, что каждый посетитель магазина в среднем покупает такое-то количество конкретного продукта, могут значительно увеличить продажи этого продукта. Как выяснилось, такие таблички также невероятно сильно влияют на покупки людей с низким уровнем дохода, для которых особенно важно употреблять в пищу как можно больше овощей и фруктов, но которые склонны покупать полуфабрикаты, а не свежую полезную еду.
В американских магазинах продукты обычно делятся на категории: мучные изделия в 4-м ряду, соусы в 6-м ряду, сыры в 9-м ряду. Японские магазины представляют покупателю более целостную картину, деля продукты на примерно следующие группы: паста, соусы и сыры в итальянском отделе; тофу, морепродукты и соевый соус в японском отделе. Более комплексный подход к классификации продуктов может снизить потребление полуфабрикатов, поскольку покупатели, у которых нет времени на поиск определенных продуктов, смогут быстро покупать нужные ингредиенты для приготовления домашних блюд.
Компании и организации могут проводить гораздо больше экспериментов для выявления эффективности своих действий и организации условий труда, чем они это делают сейчас. Повышается ли производительность труда, если сотрудник часть работы выполняет на дому? А если он все время работает из дома? А если только в офисе? Когда студенты лучше справляются с домашним заданием: если задавать им одно большое задание раз в неделю или небольшое задание каждый день?

 

Эффективность внутренних и внешних изменений
Крупные сети универсальных магазинов, такие как Sears, могут рекламировать определенные товары, выбирая отдельные сегменты потребителей — целевую аудиторию определенных СМИ — в случайном порядке, и так же могут располагать конкретные товары в супермаркете: например, в Нью-Гэмпшире и Северной Каролине где-нибудь в отдаленном зале, а в Вермонте и Южной Каролине — у входа в магазин. Количество универмагов Беагэ по стране достаточно велико для того, что сплит-тесты имели существенную мощность. Мощность статистического теста заключается в его способности определять, является ли данная разница статистически значимой. Чем больше N, тем более можно быть уверенным в том, что эта разница не является результатом случайного стечения обстоятельств.
Можно еще больше увеличить статистическую мощность, используя «внутреннюю перестановку», например, изменяя расположение товаров в одном и том же магазине. С помощью этого эксперимента можно исследовать различия, которые имеются между разными магазинами. Типичный пример внутренней перестановки представляет собой сравнение ситуации до и после. Если ювелирные изделия выложены на переднюю витрину магазина, а белье расположено в конце, как это отразится на продажах? А что если вы разместите товары наоборот? Сплит-тесты с результатами «до и после» гораздо более чувствительны, чем обычные сплит-тесты, потому что, используя их, вы можете сравнить результаты в том и другом случае. Это позволяет сравнить продажи в конкретном магазине до эксперимента с продажами после эксперимента. Затем вы смотрите на значение, которое охватывает все аспекты, которые могут отличаться в зависимости от расположения товаров и типа покупателей в магазине: размер и привлекательность магазина, предпочтения местных покупателей и прочее. Такие отличия называются дисперсией ошибок, потому что они отражают разницу между магазинами или между людьми, которые не имеют ничего общего с экспериментом: полученные значения могут быть высокими или низкими в зависимости от таких причин, которые никак не связаны с вопросом, на который должен был ответить сплит-тест. Вы скорее узнаете, реальна ли разница между продажами в условиях А и продажами в условиях Б, когда снизите дисперсию ошибок, получив результат «до и после» для каждого случая.
Помните, что при использовании схемы «до и после» следует уравновешивать порядок применяемых методов. Иными словами, одни случаи нужно сначала поставить в экспериментальные условия, а другие — сначала в контрольные условия. Иначе эффект применяемого метода и эффект порядка событий смешаются и то, что, по вашему мнению, будет эффектом применения метода, на самом деле может быть всего лишь эффектом порядка событий или просто временным эффектом.
Некоторые эксперименты «до и после» происходят случайно и дают непрогнозируемые, но полезные результаты. Мой любимый подобный случай произошел в магазине подарков в одном из юго-западных штатов. Ювелирные изделия из бирюзы продавались очень плохо, и как-то раз хозяин магазина, уезжая по делам на несколько дней, решил выставить бирюзу на распродажу и оставил продавцу-консультанту записку, в которой говорилось «распродать всю бирюзу по цене X 1/2». Когда владелец вернулся, почти вся бирюза была распродана. Он, конечно, обрадовался, но вообразите себе его изумление и радость, когда продавец сообщил ему, что бирюза продавалась лучше по цене в два раза выше изначальной! Продавец неправильно понял записку владельца и решил, что цену нужно умножить на два, а не разделить.
Как правило, цена является достаточно хорошим показателем эвристической ценности товара, поэтому покупатели воспринимают высокую цену на ювелирные изделия как знак качества. Разумеется, это работает не для всех видов товаров, но для бирюзы цена продаж — важный индикатор ценности, потому что мало кто из покупателей может оценить реальное качество этого минерала.
Статистическая мощность схемы «до и после» означает, что мы можем проводить эксперименты над самими собой. У вас бывает изжога, но вы не знаете точно почему? Записывайте, что вы едите и пьете каждый день, уделяя особое внимание возможным причинам проблемы, таким как алкоголь, кофе, газированные напитки и шоколад. Затем проведите настоящее рандомизированное испытание — подбрасывайте монетку, решая, выпить ли сегодня коктейль. Каждый раз меняйте что-нибудь одно, чтобы избежать искажающих факторов. Если вы одновременно перестанете есть шоколад и пить газировку, и при этом изжога исчезнет, вы не узнаете, что же ее вызывало — газировка или шоколад. В главе 12, посвященной словесной передаче опыта, наряду с более научными методами также рассматриваются различные варианты проведения экспериментов над собой.

 

Статистическая зависимость и независимость
Если количество случаев велико и они распределены по группам с разными условиями эксперимента в случайном порядке, наша уверенность в том, что исследуемый эффект реален, повышается. Но есть еще один чрезвычайно важный фактор, который следует тщательно прояснить, — что следует считать одним случаем? Предположим, вы попробовали метод А в группе 1, состоящей из 30 студентов. Это стандартный способ преподавания: лекции в аудитории и домашнее задание дома. Вы также пробуете применять метод Б в группе 2 с 25 студентами: он состоит в том, что студенты смотрят дома видеозаписи лекций, а «домашнее задание» делают вместе с преподавателем в аудитории. Каково общее количество случаев (N) в данном примере? Увы, не 55, что было бы удобно для того, чтобы показать значимое различие в результатах, если оно есть.
Количество случаев N здесь равно 2. Число N равно числу случаев только при условии независимости наблюдений. Но когда речь идет об аудитории, полной студентов, или о группе людей, которые взаимодействуют друг с другом в период проведения эксперимента и измерения его эффективности, поведение каждого не является независимым от другого. Если кому-то что-то непонятно, это может привести в замешательство других; если кто-то всю лекцию веселится и отпускает шуточки, это может негативно сказаться на результатах остальных студентов. Поведение каждого индивида потенциально зависимо от поведения каждого другого индивида. В таких ситуациях можно провести тест для оценки достоверности, только если достаточно велико количество групп, и тогда число N будет количеством групп, а не количеством индивидов.
Если вы не умеете проводить статистические тесты, вас неизбежно ждет неопределенность по поводу того, каков же истинный эффект применения различных методик. Тем не менее лучше в следующий раз просто применить тот метод, который показал себя лучше, чем полагаться только на свои предположения.
Концепция независимости наблюдений чрезвычайно важна для понимания бесконечного количества событий. Трудно поверить, но в 2008 г. такие рейтинговые агентства, как Standard & Poor (S&P), использовали прогнозирующие модели возможных банкротств на рынке ипотечного кредитования, в которых предполагалось, что банкротства по ипотеке независимы друг от друга. Считалось, что банкротство Джо Докса из штата Айова никак не влияет на вероятность банкротства Джейн Доу из штата Колорадо. В таком подходе есть некоторый смысл в стабильные времена. Но в других обстоятельствах, и уж тем более в период быстрого роста цен на жилье, нельзя исключить, что вы окажетесь внутри ипотечного пузыря. В этом случае вероятность банкротства по ипотеке 20031А статистически зависит от того, обанкротилась ли ипотека 90014С.
Рейтинговые агентства никогда не были и не являются незаинтересованными сторонами. За их работу им платят банки, и услуги рейтинговой компании пользуются большим спросом, если компания привычно составляет рейтинг безопасного вложения средств. Так что происходило ли это из-за того, что рейтинговые компании были поразительно некомпетентны в прогнозировании банкротств или же попросту занимались мошенничеством, я знать не могу. В любом случае полученный урок ясен: ошибочная научная методология может привести к катастрофическим последствиям.

 

Выводы
Предположения обычно оказываются неверными. И если даже они верны, глупо просто полагаться на них, когда их легко проверить. Принцип сплит-тестирования понятен даже ребенку: возьмите метод, который вы хотите протестировать, создайте контрольное условие, подбросьте монетку, чтобы выбрать, кто (или что) получит какой именно метод, и наблюдайте, что произойдет. Различие, найденное с помощью рандомизированной схемы, показывает, что какие-то манипуляции с независимой переменной оказывают влияние на зависимую переменную. Различие, найденное с помощью корреляционных методов, не может гарантировать, что независимая переменная действительно оказывает влияние на зависимую переменную.
Корреляционные схемы ненадежны, потому что исследователь не сопоставляет условия и события. Например, много домашней работы или мало, реклама по радио или с помощью рассылок, высокие доходы или низкие. Если вы не назначаете случайным образом условия конкретным случаям — вы получаете все возможные факторы неопределенности. Случаи одного уровня независимой переменной могут отличаться от случаев другого уровня в любом количестве аспектов, часть из них можно идентифицировать, а часть нельзя. Любая из измеряемых или неизмеряемых, или даже воображаемых величин может с большей вероятностью оказывать влияние, чем та независимая величина, которая вас интересует. А может быть и такое, что та величина, которая должна быть зависимой, на самом деле оказывает влияние и вызывает изменения в той величине, которая должна была быть независимой.
Чем больше число представленных случаев — людей, сельскохозяйственных участков и пр., тем больше вероятность, что вы найдете истинный эффект, и тем меньше вероятность, что «обнаружите» эффект, которого там на самом деле нет. Если разница, которую показывает статистический тест любого типа, оказывается такой величины, что она проявляется менее, чем один раз в 20 случайных примерах, мы считаем, что это значимое различие на уровне 0,05. Без подобного теста мы, как правило, не можем узнать наверняка, действительно ли этот эффект имеет место.
Когда вы ставите каждый случай во все группы с различными условиями эксперимента, ваша схема становится более чувствительной. Иными словами, вероятность того, что разница, найденная с помощью внутренней перестановки, будет статистически значима, выше, чем в случае разницы, найденной с помощью сравнения разных объектов, — потому что все возможные различия между любыми двумя случаями полностью контролируются, оставляя в качестве возможного различия, являющегося причиной некой взаимосвязи, исключительно различие, вызванное применением экспериментального метода.
Чрезвычайно важно понимать, могут ли исследуемые случаи (или люди, если вы исследуете их поведение) влиять друг на друга. Если тот или иной случай мог оказать влияние на другие случаи, это значит, что вашему эксперименту недостает статистической независимости. N — число случаев, которые не могут влиять друг на друга. Группа студентов А — это N, равное 1, а не числу студентов. (Здесь могут быть исключения, когда влияние можно считать минимальным, незначительным или отсутствующим, например когда студенты сдают экзамен в специальной аудитории с кабинками, где невозможно разговаривать друг с другом.)
Назад: Часть IV. Эксперименты
Дальше: 10. Эксперименты естественные и подлинные

Михаил
Переводчик даже не пытался.