Когда мера не является мерой?
На третьем десятке лет я провел, наверное, около 5 000 школьных уроков. Взрослые наблюдали не больше 15 из них. Даже в наше время подотчетности школ классная комната остается непрозрачным, тускло освещенным, малоизученным местом. Я понимаю, почему политики и посторонние отчаянно хотят заглянуть внутрь. И по-моему, будет увлекательно посмотреть их глазами, каким образом они пытались разглядеть внутреннюю работу школы и повлиять на нее.
В 1982 году Джей Мэтьюс был главой лос-анджелесского отдела газеты The Washington Post. По идее, это означало, что он освещает самые громкие сюжеты на западе Соединенных Штатов.
В действительности он взломал факультативы по матанализу в старших классах школы.
Изо дня в день Мэтьюс не мог удержаться от того, чтобы не наведаться в класс учителя Хайме Эскаланте в западном Лос-Анджелесе. Этот иммигрант из Боливии был буквально природной стихией. Ироничные издевательства, жестокая любовь, испанские хлесткие фразы и неослабевающие надежды Эскаланте помогли студентам средней школы Гарфилда достичь беспрецедентных результатов при сдаче экзамена программы Advanced Placement (AP) по матанализу. Его ученики не происходили из богатых и благополучных семей. Мэтьюс опросил 109 учеников и выяснил, что лишь у 35 из них родители окончили среднюю школу. Тем не менее эти подростки успешно сдавали один из самых сложных школьных экзаменов в США. В 1987 году больше четверти всех граждан США родом из Мексики, сдавших AP по матанализу, составляли выпускники школы, где преподавал Эскаланте. К 1988 году Эскаланте стал самым известным учителем страны: его имя упомянул в предвыборных дебатах Джордж Буш — старший; Эдвард Джеймс Олмос сыграл его в фильме «Выстоять и добиться» (и получил «Оскар» за эту роль); Мэтьюс опубликовал о нем книгу «Эскаланте: лучший учитель в Америке».
Мэтьюс усвоил от Эскаланте не только правило дифференцирования частного двух функций, но и еще один ясный принцип. Школьники добиваются успехов, если их стимулировать. Хороший учитель ставит высокую планку. И вот, надеясь ранжировать школы по этой шкале, Мэтьюс прибегнул к помощи статистики. Какие школы — вне зависимости от социально-экономических и демографических факторов — по-настоящему строго испытывают своих учеников? Он решил не учитывать средний балл AP. Он полагал, что статистика, которая определяет как лучшие лишь те школы, где самых сильные ученики учатся по программам AP, игнорирует подавляющую часть обычных школьников. Ситуация, в которой школы пытаются отгородить учеников от интеллектуальных вызовов, казалась Мэтьюсу глубоко неправильной. Он хотел измерить охват программы AP, а не ее эксклюзивность.
Он также не хотел подсчитывать среднее число успешно пройденных экзаменов AP. По его мнению, этот показатель коррелировал с социально-экономическим статусом. Если вы учились по программе AP, вы были лучше подготовлены к колледжу вне зависимости от того, завалили вы экзамен или нет. Опыт оказывается важнее баллов.
В конце концов Мэтьюс выбрал еще более простой показатель: среднее количество экзаменов по программе AP (и других экзаменов, чьи результаты засчитываются при поступлении в колледж), которые в принципе выбирает выпускник данной школы. Он учитывал не баллы, а попытки. Мэтьюс назвал этот рейтинг «Индексом вызовов». Список школ-лидеров был опубликован в журнале Newsweek в 1998, затем в 2000 и в 2003 году (тогда этот сюжет попал на обложку).
С самого начала этот рейтинг вызывал разногласия. «Откровенная насмешка», — сказал один читатель Newsweek. Некий профессор педагогики назвал этот перечень «медвежьей услугой тысячам школ, где учителя, преданные долгу, хлебы железные глодают, обеспечивая достойный уровень образования миллионам молодых людей, которые по многим уважительным причинам никогда не будут учиться по программам AP или IB».
Прошло 20 лет. Этот рейтинг ежегодно публикуется в газете The Washington Post, и Мэтьюс отстаивает свою методику. «Я составляю рейтинг, — пишет он, — с надеждой, что он вызовет споры и побудит размышлять о проблемах, которые затрагивает».
Возможно, я наивная рыбка, но я заглотил эту наживку. Я думаю, что «Индекс вызовов» поднимает глубокие вопросы — они касаются не только педагогических приоритетов, но и перипетий количественной оценки хаотичного, многогранного мира. Какие показатели мы должны использовать — сложные или простые? Как найти компромисс между изощренностью и прозрачностью? И прежде всего: статистика наподобие «Индекса вызовов» пытается измерить мир как он есть или преобразить его?
Люди делятся на две категории: те, кому нравятся грубые дуализмы, и все остальные. И теперь, когда я сбросил с себя маску и вы поняли, что я принадлежу к первой категории, позвольте мне ввести классификацию статистических показателей, которая мне представляется полезной: есть окна и есть табло результатов.
Окно — это число, благодаря которому можно увидеть проблеск реальности. Оно не входит ни в одну систему стимулирования. Оно не помогает снискать аплодисменты и не чревато наказаниями. Это приблизительные, фрагментарные, несовершенные данные, но все же полезные любопытному наблюдателю. Представьте себе психолога, который просит испытуемого оценить уровень своего счастья по шкале от 1 до 10. Это всего лишь грубое упрощение; только впавшая в абсолютную безнадежность человеческая единица поверит, что счастье можно выразить одним числом.
Или представьте, что исследуете уровень здоровья в глобальном масштабе. Невозможно количественно оценить физическое и психическое благополучие каждого гражданина. Вместо этого вы смотрите на сводную статистику: ожидаемая продолжительность жизни, детская бедность, потребление печенья Pop-Tarts на душу населения. Это полезное окно в реальность, хотя оно не позволяет увидеть ее целиком.
Второй вид показателей — это табло результатов. Оно сообщает определенный, окончательный результат. Это не отстраненное наблюдение, а обобщенное суждение, система стимулирования, несущая определенные последствия.
Представьте себе рейтинг баскетбольных команд. Конечно, плохие команды иногда берут верх над хорошими. Но, если вы назовете рейтинг ошибочным показателем качества команды, люди станут смотреть на вас искоса. Вы не для того набираете очки, чтобы доказать качество своей команды; вы повышаете качество команды, чтобы набрать больше очков. Табло результатов — это не грубый показатель, а сам желанный результат.
Или рассмотрим суммарную прибыль от продаж. Чем больше это число, тем лучше сделана работа. И точка.
Одни и те же статистические показатели могут быть или окном, или табло результатов — в зависимости от того, кто смотрит. Будучи учителем, я полагаю, что экзаменационные оценки — это окна. Из них открывается вид на истинное положение вещей, но они никогда не позволят охватить взглядом весь спектр математических навыков (гибкость, изобретательность, пристрастие к «синуциидальным» каламбурам и т.д.). Тем не менее для школьников экзаменационные оценки — это табло результатов. Это не зашумленный сигнал итогового результата в туманной долгосрочной перспективе, а сам итоговый результат.
Многие статистические показатели представляют собой полезные окна, но неэффективные табло результатов. Пример — история с британской службой скорой помощи. В конце 1990-х правительство Великобритании ввело ясный показатель: доля выездов на звонок в скорую помощь менее чем за 8 минут. Цель: 75%.
Отличное окно. Чудовищное табло результатов.
Во-первых, имела место подтасовка данных. В записях значилось множество выездов за 7 минут 59 секунд; почти ни одного за 8 минут и 1 секунду. А во-вторых, что гораздо хуже, эта разнарядка породила безумные выходки. Некоторые бригады просто-напросто бросали свою карету скорой помощи, пересаживались на велосипеды и успевали доехать в течение 8 минут несмотря на городской транспортный поток. На мой взгляд, оснащенная необходимой аппаратурой машина для перевозки пациентов, которая приезжает через 9 минут, существенно полезнее, чем бригада в белых халатах на велосипедах через 8 минут, но табло результатов со мной не согласно.
Позвольте развить эту тему в серии скетчей, которую я окрестил «Хоррор-шоу кривых показателей»:
Возвращаясь к Мэтьюсу и Newsweek, я хочу ответить на естественный вопрос: к какой категории относится «Индекс вызовов»?
В 1998 году в предисловии к первой публикации рейтинга Мэтьюс пишет:
Практически все профессиональные педагоги скажут вам, что составление рейтингов школ контрпродуктивно, ненаучно, оскорбительно и ошибочно. Все возможные критерии оценки будут узкими и искаженными. Я принимаю все эти аргументы. Однако, будучи репортером и отцом, я думаю, что в некоторых обстоятельствах система рейтингов, вне зависимости от того, насколько она ограниченная, может быть полезной.
Ключевое слово — «ограниченная». Школам присуща своеобразная сложность, равно как экосистемам или мыльным операм в дневном телеэфире. Если вы используете для оценки такого рода сложных структур один-единственный показатель, у вас есть два основных варианта: (1) составить запутанную формулу, куда входит много переменных; или (2) выбрать одну переменную, простую для восприятия.
По этому поводу, будучи американским неандертальцем, я вспоминаю наш футбол. Один простой способ измерить успех квотербека состоит в том, чтобы посчитать долю завершенных пасов. Сколько раз мяч был пойман после его паса? В большинстве сезонов лидер лиги достигает результата 70%; средний результат по лиге близок к 60%.
Подобно многим окнам, этот показатель пребывает на границе между простым и упрощенным. Осторожный 5-ярдовый пас уравнивается с 50-ярдовым, меняющим весь ход игры, раз в обоих случаях мяч пойман. Пас прошел впустую? Немного досадно. Мяч перехвачен? Катастрофа. Но формально оба раза мяч просто не пойман. Тем не менее, хотя вся статистика по этому показателю неполноценна, по крайней мере, эта неполноценность прозрачна. Если вы сообщаете о доле завершенных пасов, вас нельзя винить в распространении ложной рекламы.
На другом конце спектра расположен рейтинг пасующего — ошеломительный Франкенштейн, учитывающий попытки пасов, успешные пасы, ярды, тачдауны и перехваты. Этот показатель может принимать значения от 0 до 158⅓. Он четко коррелирует с победой команды, и никто среди моих знакомых еще не осмеливался утверждать, что понимает, как этот рейтинг вычисляется и каковы его слепые пятна.
Таков компромисс: сложность против прозрачности. Рейтинг пасующего против доли завершенных пасов. Для меня очевидно, что Мэтьюс относится к тем людям, которые любят вычислять своего рода долю завершенных пасов. В предисловии к рейтингу, опубликованному в Newsweek в 2009 году, он пишет:
Одной из сильных сторон рейтинга является узость критерия. Любой может понять простую арифметику школьного «Индекса вызовов» и здраво обсудить ее, в отличие от рейтингов вроде «Лучшие колледжи Америки» в U. S. News & World Report, в которых учитывается так много факторов, что я не в силах их понять.
Все это делает его «Индекс вызовов» грубым показателем: лучше, чем ничего, и еще лучше, что все недостатки налицо. Честное окно.
Но когда вы публикуете ваши статистические данные под заголовком «Лучшие школы Америки» в журнале, который читает вся страна, — ну, это чертовски похоже на табло результатов.
«Рейтинг зажил своей собственной жизнью, — писал комитет Государственного совета по исследованиям в 2002 году. — Стало настолько важным попасть в топ-100 учебных заведений, что руководство некоторых конкурентоспособных школ, не включенных в этот перечень, публиковало оправдательные дисклеймеры на своих веб-сайтах».
«Больше всего шумят родители, — сказал один учитель из Милуоки (штат Висконсин). — Ваш статус в сообществе растет, если вы предлагаете больше факультативов AP и имеете шансы попасть в топ-100, который публикует Newsweek».
Одно из свойств плохих табло результатов заключается в том, что ими легко манипулировать. В случае «Индекса вызовов» вы можете принудить школьников посещать факультативы AP. «Поскольку рейтинг учитывает попытки сдать экзамен, а не оценки, — писала Валери Штраус, коллега Мэтьюса из The Washington Post, — школы просто запускают в экзаменационный трубопровод максимально возможное число учеников».
Другая проблема в операции деления. Ради удобства Мэтьюс поставил в знаменатель число выпускников старших классов, а не всех учеников. Если предположить, что все старшеклассники оканчивают школу спустя четыре года после поступления, с математической точки зрения разницы нет. Но при высоком уровне отчислений формула дает извращенный результат. Если три школьника сдают экзамен AP, но затем двух из них отчисляют, то мэтьюсовская математика подразумевает, что оставшийся ученик сдал три экзамена AP.
В общем, вот один из способов рассказать историю «Индекса вызовов». Вначале он был хорошим окном. Учитывая не оценки, а количество экзаменов, он показывал не достаток и привилегированность, а более глубокую характеристику: встречаются ли школьники с интеллектуальными вызовами. Безошибочно? Нет. Ценно? Да.
Затем его влияние выросло. Речь шла уже не об одиноком журналисте, выделяющем школы, где от учеников ждут большего, а об авторитетном новостном журнале, венчающем «лучшие» школы. Это извратило стимулы и породило странные результаты, и хорошее окно превратилось в плохое табло результатов.
Казалось бы, мы добавили последнюю вишенку на торте в этой истории и можем вернуться к просмотру футбольных матчей и/или подготовке к экзаменам AP. Однако тогда мы упустим интереснейший вираж сюжета — и глубинную подоплеку игры, которую затеял Мэтьюс.
Как правило, потребительские рейтинги помогают совершить определенный выбор: какой автомобиль приобрести, в какой университет поступить, какой фильм посмотреть. Но неясно, имеет ли эта логика отношение к рейтингу всех школ в стране. Неужели я запланирую переезд из Флориды в Монтану вместе со своей семьей, чтобы мой ребенок получил образование в колледже, одобренном в Newsweek? Консультируетесь ли вы со статистическими сводками, выбирая место жительства: Спрингфилд в Иллинойсе или Спрингфилд в Массачусетсе? Для кого именно предназначен «Индекс вызовов»?
Мэтьюс утверждает: все просто. Он составляет рейтинг ради самого рейтинга. «Мы не в силах не сверяться с рейтингами, — говорит он. — Неважно, о чем идет речь: внедорожники, магазины мороженого, футбольные команды, дозаторы удобрений». В 2017 году он писал: «Все мы племенные приматы, бесконечно завороженные иерархией». «Индекс вызовов» ставит своей целью использовать эту причудливую особенность психологии приматов, чтобы обратить ее в орудие повышения конкурентоспособности школ.
Критики говорят, что рейтингом легко манипулировать, но Мэтьюс не возражает. На самом деле в этом-то и есть весь смысл: чем больше учеников запишутся на экзамен, тем лучше. Школы, которые побуждают, умасливают и поощряют учеников к этому шагу, не жульничают, они делают своим ученикам добро. Он даже доволен титулом «лучшие» и говорит в интервью The New York Times, что это «в нашем обществе значение этого термина весьма эластично».
В качестве обоснования своей точки зрения Мэтьюс любит цитировать исследование 2002 года, охватившее 300 000 школьников в Техасе. Сосредоточившись на тех, кто набрал низкие баллы на SAT, исследователи обнаружили, что ученики, получившие два балла на экзамене AP (то есть завалили его), позже превзошли своих сверстников, которые вообще не пытались сдать AP. Само усилие — даже без проходного балла — похоже, закладывало основу успеха в колледже.
Все это переворачивает повествование с ног на голову. Судя по всему, Мэтьюс полагает, что «Индекс вызовов» — плохое окно, но в то же время такое табло результатов, в котором нуждается нация.
К счастью или к несчастью, влияние рейтинга невозможно отрицать. Мэтьюс постоянно подсчитывает число школ с индексом 1 — одна попытка сдать экзамен AP на одного ученика. В 1998 году их доля по всей стране составляла всего 1%. В 2017-м она возросла до 12%. В Вашингтоне (округ Колумбия), средоточии влияния Мэтьюса (в конце концов, он пишет для The Washington Post), их больше 70%.
Для Мэтьюса «Индекс вызовов» был прицельной атакой на вялый и предвзятый статус-кво: точку зрения, согласно которой школы, где учится много богатых детей, хороши, а школы, где учится много бедных детей, плохи. Он с гордостью перечисляет школы с высоким рейтингом, где учатся дети из малообеспеченных семей. Он отмахивается от возражений: а как же дети из Истсайд Хай Скул в Гейнсвилле, штат Флорида, многие из которых читают хуже своих сверстников, или катастрофическое количество детей, бросающих школу, в Локк Хай в Лос-Анджелесе? В ответ на это Мэтьюс говорит, что эти школы заслуживают признания за свои усилия, а не осуждения за трудности, с которыми они сталкиваются.
Во всех статистических методах закодированы определенные взгляды на мир, который они стремятся измерить. В случае «Индекса вызовов» эти взгляды продиктованы воспоминаниями о Хайме Эскаланте и надеждами на распространение его педагогического подхода в масштабах всей страны. Ваше отношение к методу Мэтьюса в конечном итоге сводится к вашему мнению относительно его взглядов.