Эксперименты естественные и нечаянные
урок № 15. Нечистоплотный избирком можно поймать за руку с помощью статистики
В естественных науках основной критерий истинности придуманной учеными теории – эксперимент. Если результаты эксперимента не совпадают с тем, что предсказывала теория, – что ж, теорию придется отбросить или как минимум модифицировать. К сожалению, экономистам трудно тестировать свои теории в лабораторных условиях: невозможно провести лабораторный эксперимент, чтобы проверить какую-то макроэкономическую теорию. Экономистам приходится искать “естественные эксперименты” – ситуации, максимально близкие к искусственным лабораторным условиям. В идеале для анализа последствий экономической политики нужно было бы взять одинаковые страны и, выбрав одну из них с помощью жребия, провести там ту политику, которую мы хотим сравнить со статус-кво. В реальности одинаковых стран нет, да и страны, в которых эксперимент проводится, и те, которые будут “контрольной группой”, выбираются не по жребию. А без случайного выбора может оказаться, что последствия политики определяются не ею самой, а теми же самыми факторами, вследствие которых страна предпочла ее проводить…
Что такое полевой эксперимент? Вместо лаборатории (за лабораторные эксперименты получил Нобелевскую премию 2002 года Вернон Смит) используется то, что проводится в реальной жизни и без всякого эксперимента, но к этому добавляется специальная компонента – например, правильно подобранная “случайность”. Скажем, правительство решает ввести новую образовательную программу. Если ввести ее во всех школах, нельзя будет определить, повлияла ли эта программа на успеваемость (и в какую сторону). Если ввести ее в “пилотных” школах, то будет трудно определить, как она станет работать в других школах, потому что может оказаться, что выборка “пилотных” школ оказалась непредставительной по отношению ко всем школам относительно этой новой программы. Это может быть сложно – понять, представительной будет выборка или нет. У нас в стране оценку программ или массовых проектов с помощью рандомизированных экспериментов пока не проводят, а зря: это примерно такое же отставание в технологическом плане, как если бы чиновники не умели пользоваться мобильной связью. Жизнь бы продолжилась, но эффективность была бы ниже.
Мой собственный опыт работы с экспериментальными данными невелик, однако парламентские выборы 2011 года дали такой интересный материал для анализа, что было жалко упустить возможность.
Схватить за руку
История анализа российской фальсификации для меня лично началась в 2007 году. Тогда, наутро после выборов, я прочитал в блоге географа Александра Киреева, что, конечно, фальсификации были, но они не превышают 1–2 %. И тогда же, на следующий день, написал у себя в блоге про сравнение двух московских участков: в одном был изгнан наблюдатель (от “Яблока”, кажется), а в другом – нет. Чтобы сравнение было правильным, я посмотрел, как эти участки голосовали в 2003 году. Это было не так просто сделать, потому что участки переименовали и нужно было смотреть, какие дома к какому участку относились. Получилось очень наглядно: результаты на этих участках были одинаковыми в 2003 году, а в 2007-м “Единая Россия” на одном из них получила чуть ли не вдвое больше голосов, чем в 2003-м.
Конечно, один пример – всего два участка, две временные точки и две географические – не дает возможности оценивать размер фальсификации во всей стране. Однако это, как мне казалось, должно было поколебать веру в тезис, что, мол, все и так за “Единую Россию”, какая разница, как считать голоса. У этого поста оказалось неожиданное последствие: его прочитал программист Сергей Шпилькин, который впоследствии увлекся “электоральной математикой”. В итоге он, пользуясь совсем простыми статистическими методами, сначала сделал гораздо больше, чем профессиональные политологи, прославившись на весь мир своими графиками и анализом масштаба фальсификаций на российских выборах. В конце концов Шпилькин сам стал, в дополнение к своей основной профессии, профессиональным политологом, опубликовав статьи на эту тему в уважаемых статистических журналах.
Осенью 2011 года сложилась уникальная ситуация. С одной стороны, тысячи людей по всей стране были озабочены честностью подсчета голосов. Одни стали добровольными наблюдателями в день выборов, другие собрали и проанализировали результаты выборов. С другой стороны, те, кто организовывал фальсификации, были к этому не готовы. Если они о чем-то и заботились, то лишь о том, чтобы объявленные результаты не сильно отличались от результатов социологических опросов, проводимых крупными центрами. В другой стране социологические опросы могли бы помочь обнаружить фальсификации, но российские социологи научились включать в свои результаты “поправку” на будущую фальсификацию так, что объявленные результаты совпали с предсказаниями социологов. За это совпадение – результаты опросов предсказали фальсифицированный, а не реальный результат выборов 2011 года – никто из социологов так и не извинился.
Но откуда мы знаем, что результаты выборов были фальсифицированы? Вот здесь как раз пригодились естественные эксперименты – следствие того, что граждане были готовы следить за чистотой выборов, а фальсификаторы ни к чему толком не готовились. Масштаб фальсификаций результатов парламентских выборов 4 декабря 2011 года в Москве виден, например, в результатах следующего эксперимента[43].
Эксперимент был устроен чрезвычайно просто. 4 декабря группа “Гражданин наблюдатель” распределила добровольцев на 3164 участках случайным или, точнее, “квазислучайным” образом. Наблюдатели были на 1-м, 25-м, 50-м, 75-м и так далее участках. Поскольку нет оснований подозревать, что в распределении номеров участков был какой-то особый умысел, это фактически дает случайное распределение. В общей сложности в выборке было 156 участков.
Случайное распределение наблюдателей дало возможность сравнить два типа участков: те, на которых наблюдатели были, и те, на которых их не было. В нашей статье мы их и сравниваем по среднему значению проголосовавших за ту или иную партию. Благодаря этому нам удалось оценить размеры фальсификаций результатов в пользу “Единой России”. Они были очень значительными: из-за подтасовок официальные результаты на четверть завысили количество голосов, набранных партией-лидером.
Чтобы сравнение двух групп избирателей имело смысл, распределение наблюдателей должно было быть именно случайным. Рубен Ениколопов, экономист из Российской экономической школы и барселонского Университета Помпеу Фабра, один из авторов работы, несколько лет пытался убедить наблюдателей проводить “случайные эксперименты”, то есть расставлять добровольцев по участкам случайным образом. Впрочем, в руководстве “Гражданина наблюдателя” были грамотные специалисты по анализу данных, так что необходимость случайного распределения была понятна.
Почему же “Гражданин наблюдатель” не распределил добровольцев по участкам просто по жребию? Потому что “квазислучайный” метод более прозрачен для широкой публики. В случае если бы наблюдатели распределялись по жребию, нашлись бы те, кто приписал бы результаты манипуляциям со жребием. Публика же хочет во всем видеть обман. Каждый год на спортивных сайтах возникают конспирологические теории о том, что очередная жеребьевка была проведена нечестно. Квазислучайное распределение гарантирует определенную прозрачность. Тем более, как рассказывается ниже, есть возможность дополнительно проверить, была ли созданная таким образом выборка репрезентативной, не отличающейся в среднем от всех участков в городе.
Итак, благодаря эксперименту “Гражданина наблюдателя” у нас был материал для сравнения двух выборок. Первые результаты сравнения были оглашены “Гражданином наблюдателем” через несколько дней после выборов, а Алексей Захаров, доцент Высшей школы экономики, описал их в колонке в интернет-издании Slon.ru[44]. Однако все равно стоило написать научную статью, чтобы не только аккуратно объяснить, но и проделать дополнительные процедуры проверки результатов на устойчивость. Чтобы убедиться в устойчивости результатов, ученые предполагают другие (отличные от собственных) возможные объяснения того или иного явления и придумывают, с помощью какого статистического теста эти альтернативные объяснения можно опровергнуть.
Какую дополнительную проверку необходимо было провести? Я еще раз вернусь к случайности назначения наблюдателей. Представьте себе, что, как на предыдущих выборах в Москве или как в 2011 году в других городах, наблюдатели пошли бы на те участки, на которые хотели, и мы получили бы сходные результаты. То есть оказалось бы, что среднее по участкам с наблюдателями отличается от среднего по участкам без наблюдателей. Что бы это означало? Это могло бы означать, что наблюдатели захотели пойти на вполне определенные участки, потому что, например, это их родные участки, на которых у “Единой России” аномально маленький, по сравнению со средним, процент голосов. У нас же складывалась совсем другая картина. Поскольку мы получили разницу в результатах между участками с наблюдателями и участками без наблюдателей, а наблюдатели были распределены по участкам случайным образом (1-й, 25-й, 50-й, 75-й в каждом из больших территориальных округов), то выходит, что разница в результатах возникает по причине, не связанной с действиями наблюдателей.
Чтобы отвергнуть подозрения в нерепрезентативности нашей выборки, мы взяли данные о выборах 2007 года. С помощью группы ассистентов мы поставили в соответствие участкам 2007 года участки 2011 года. В итоге мы получили большую выборку, покрыв примерно треть участков, и могли сравнить, отличались ли выбранные нами участки от остальных. Оказалось, что в 2007 году они совершенно не отличались, то есть среднее по ним было тем же самым, что и среднее по всем участкам. Следовательно, тот факт, что в 2011 году это отличие имелось, указывает на наличие “эффекта присутствия наблюдателя”, снижающего процент фальсификаций.
Основной результат проведенного исследования состоит в том, что как минимум 10 процентных пунктов в результатах “Единой России” на парламентских выборах – результат фальсификаций. По официальным данным, в Москве “Единая Россия” набрала 46,5 % голосов, и, значит, примерно четверть московских голосов были “крадеными”.
10 % – это минимальная оценка. Наш основной результат никак не связан с тем, что сообщали наблюдатели. Сделанная нами оценка основана только на том, присутствовал наблюдатель на участке или нет. Иными словами, мы смотрели только на результаты выборов, обнародованные ЦИКом, и данные о присутствии наблюдателей. Можно отдельно посчитать, что было на тех участках, где наблюдателей удалили, – там становилось резко хуже. Или выделить те участки, на которых, как сообщили наблюдатели, не было нарушений. В этом случае показатели фальсификаций оказываются более высокими – до 20 процентных пунктов.
Конечно, статистические доказательства – по своему характеру доказательства косвенные. Что такое статистическая значимость? Грубо говоря, это означает, что если бы результат наблюдения выпал случайно, то это было бы очень-очень маловероятным событием. Но если что-то может случиться, пусть и с маленькой вероятностью, это все равно может случиться. Иначе говоря, доказательства косвенные. И все же, если говорить о выборах в Москве в декабре 2011 года, эти косвенные доказательства все продемонстрировали по самым строгим критериям.