Взлет и падение бейсбольной статистики
С момента своего возникновения бейсбол был игрой чисел. На данный момент в «Википедии» перечислены 122 разновидности бейсбольной статистики, от DICE до FIP и VORP, и я подозреваю, что это лишь верхушка айсберга. Более того: подберите наугад три буквы — готов поклясться, что кто-нибудь где-нибудь уже скрупулезно ведет статистику под таким кодовым названием.
Эта глава посвящена одной статистической модели — от скромного начала до постепенного упадка. Речь идет о рейтинге «БА» (англ. BA): бостонский акцент. Простите, блатной алкоголь. Ну ладно, хорошо: batting average (процент реализации выходов на биту).
Когда-то этот рейтинг царил безраздельно. В наши дни специалисты по статистике придерживаются мнения, что это китч и пережиток простодушных дней. Настало время пустить его в расход? Или дышащий на ладан ветеран с ноющими суставами еще даст прикурить?
В 1856 году англичанин по имени Генри Чедвик, крикетный репортер The New York Times, случайно впервые в жизни попал на матч по бейсболу. Он был заворожен. «В бейсболе все сверкает!» — воскликнул он, как мог воскликнуть только фанат крикета. Он, словно ленивец, пораженный молниеносностью и блеском черепахи, посвятил свою жизнь этому американскому виду досуга. Он заседал в нормативных комитетах, написал первую книгу об этом виде спорта и был редактором первого бейсбольного ежегодника. Однако титул «отец бейсбола» Чедвик снискал за нечто более фундаментальное — статистику.
Чедвик изобрел таблицу очков для отслеживания ключевых событий игры. Просматривая колонки цифр — очки, хиты, ауты и так далее, можно было практически воочию наблюдать за тем, как проходила игра. Таблицы очков составляли не для долгосрочных прогнозов или подсчетов статистической значимости. Однако они рассказывали историю на языке цифр: в них отражались позор и слава, герои и злодеи. В таблицах кратко описывались погодные условия и подчеркивались ключевые моменты игры, чтобы помочь фанатам оказаться в гуще событий (задолго до радио, экшен-камер или ). Это был SportsCenter 1870-х годов.
Идея Чедвика с рейтингом BA перекочевала из крикета, где, впрочем, есть только две базы, а очки вы набираете каждый раз, когда перемещаетесь от одной базы к другой. Игроки в крикет продолжают отбивать, пока соперник не сделает им аут, и хороший игрок вполне может заработать для своей команды десятки очков. (Рекорд всех времен и народов — 400 очков.) Таким образом, этот процент в крикете высчитывается из очков, набранных на один аут, сделанный соперником. Великий игрок может набрать 50%, даже 60%.
В бейсболе подобная формула не работает. Здесь один-единственный хит может завершить ваш выход на биту. Как любой хороший математик, Чедвик начал играть с правилами, перепробовал несколько формул и пришел к той, которая используется сейчас.
Итак, процент реализации выходов на биту состоит из одного незамысловатого математического действия: количество хитов делится на общее количество выходов на биту. Чедвик сказал, что это «единственный подлинный критерий в оценке навыка игры на бите».
Таким образом, в теории BA может принимать значение от 0,0 (игрок ни разу не отбил) до 100,0 (игрок отбивал каждый выход). На практике практически все игроки укладываются в промежуток от 20,0 до 35,0%. Это не слишком большой диапазон. Короли бейсбола (бьющие 30,0% и больше) и середняки (бьющие примерно 27,5%) различаются всего одним лишним хитом на 40 попыток. Невооруженным глазом этого нельзя заметить. Более того, «плохой» отбивающий вполне способен затмить «хорошего» просто по прихоти фортуны.
Так работает статистика. Рейтинг BA похож на ускоренную съемку роста цветка от саженца до пышного цветения. Он выявляет истину, которая в противном случае лежала бы за пределами нашего восприятия. Вместо бури в стакане воды мы видим зарницы в таблице.
Статистика, как и теория вероятностей, наводит мосты между двумя мирами. Первый — сумбурная повседневность, полная блестящих взлетов и болезненных падений. Второй — рай долгосрочной перспективы, плавных усреднений и стабильных тенденций. Теория вероятностей начинает с мира долгосрочных перспектив и предполагает, что именно может произойти в какой-нибудь конкретный день. Статистика все делает наоборот: начинает с повседневного сумбура и стремится рассчитать незримое долговременное развитие на основе доступных данных.
Иными словами, специалист по теории вероятностей берет колоду и описывает, какие комбинации карт могут выпасть. Специалист по статистике смотрит на комбинации карт на столе и пытается сделать вывод о том, как устроена колода.
Бейсбол, возможно, единственный вид спорта, который предоставляет достаточно много карт, чтобы делать убедительные выводы о колоде.
В каждом чемпионате по 162 матча, и каждый игрок получает примерно по 24 000 подач. В европейском футболе, для того чтобы получить такой же объем информации, нужно возвращать мяч в центр поля каждые пять секунд в течение всего чемпионата. Кроме того, отбивающий выходит на биту в одиночку, поэтому можно легко собрать ясные данные о его игре вне зависимости от того, как ведут себя другие игроки, в то время как в других видах спорта в большинстве случаев игра строится на командных взаимосвязях.
В этом великолепие рейтинга BA. Однако каждый вид статистики что-то упускает, и в данном случае за скобками остается один ключевой момент.
В 1952 году журнал Life первым опубликовал новую повесть Эрнеста Хемингуэя «Старик и море». Было продано пять миллионов экземпляров; автор получил Нобелевскую премию.
2 августа 1954 года Life решил привлечь внимание американцев к другой повестке дня: бейсбольной статистике. Бранч Рики, главный менеджер команды «Питтсбургские пираты», опубликовал статью под названием «Прощайте, кое-какие устаревшие идеи о бейсболе». Потребовалось десять страниц, чтобы объяснить содержащееся там уравнение:
Сама по себе эта формула была не слишком-то корректной. Знак равенства на самом деле не означал тождество, а минус не означал вычитание. Тем не менее статья содержала проницательную критику некоторых «устаревших идей о бейсболе», прежде всего рейтинга BA. Атака (ее приписали Рики, но на самом деле автором статьи был канадский специалист по статистике Алан Рот) началась с двух букв: BB, то есть «base on balls». Проще говоря, пробежка.
На заре бейсбола в соответствии с правилами игрок находился на бите, пока не сделает хит, не отобьет мяч в поле или не получит страйк-аут. Процесс игры был тягучим, словно холодная патока. Поэтому в 1858 году появилось новое правило: если игрок прозевал смачную подачу, это было равносильно тому, что он пытался отбить и не отбил. Но теперь маятник слишком далеко качнулся в обратную сторону; осторожные питчеры перестали бросать мячи, которые можно было отбить. В 1863 году было введено понятие «бол»: это бросок, который не попадает в страйковую зону, который отбивающий и не попытался отбить. Четыре таких подачи позволяют отбивающему беспрепятственно пройти на первую базу.
Пробежки ставили Чедвика в тупик. Эквивалент таких моментов в крикете — показатель «уайд», но он считался за ошибку подающего. Получается, что процент реализации выходов на биту игнорировал пробежки, словно и не существовало выходов на биту, завершившихся пропуском оппонента. Более того, в официальной статистике матчей пробежки стали учитываться лишь в 1910 году.
Сегодня самые умелые и терпеливые на бите игроки проходят на первую базу в 18–19% случаев; бесшабашные имеют только 2–3%. Поэтому Рики ввел понятие «процент пребывания на базах» (on-base percentage), или ОВР. В рамках этого показателя учитывается все, что приводит игрока на первую базу. Это могут быть и хиты, и пробежки. Иными словами, учитывается все, кроме аутов.
Здесь можно задаться вопросом: какой из статистических показателей позволит лучше предсказать, сколько та или иная команда наберет очков? BA или OBP? Судя по данным за 2017 год, BA довольно хорош: коэффициент корреляции 0,73. Однако OBP прямо-таки превосходен: коэффициент корреляции 0,91.
Кроме того, Рики (вернее, Рот) выявил еще один недостаток BA. Дело в том, что есть четыре варианта хитов, от сингла, после которого игрок достигает первой базы, до хоумрана, где отбивающий пробегает полный круг (четыре базы) и набирает очко. Конечно, баз, как десертов и репостов, чем больше, тем лучше. Однако процент игры на бите не учитывает этой разницы в количестве баз. В связи с этим Рики вводит еще один термин, который обозначает хиты дальше первой базы. Сейчас мы называем его «процент дальних ударов» (slugging percentage), или SLG. Сюда входят все разновидности хитов, которые могут случиться в рамках одного выхода на биту: от 0,00 до 4,00. На практике не было ни одного отбивающего, который закончил бы сезон, имея даже 1,00.
Как и процент игры на бите, процент дальних ударов игнорирует пробежки и стирает существенные различия. В частности, чтобы получить 80,0% дальних ударов за 15 выходов на биту, вам нужно занять в общей сложности 12 баз (12/15 = 0,8). Есть множество способов проделать это, но не все одинаково выгодны:
Итак, у нас есть процент пребывания на базах (ОВР) и процент дальних ударов (SLG), которые описывают игру с разных точек зрения. Их сумма дает показатель OPS (on-base plus slugging). Анализ статистики 2017 года показывает, что коэффициент корреляции для OPS просто сногсшибательный: 0,935. Лучше, чем у ОВР и SLG по отдельности.
Когда той самой статье в Life исполнилось 50 лет, газета «Нью-Йорк Янкиз» показала формулу генеральному директору New York Yankees Брайану Кэшману. Он сказал: «Вау! Этот парень опередил свое время на несколько поколений». Так вскрылась страшная правда: Кэшман никогда слыхом не слыхивал об этой статье в Life. Даже после публикации старый добрый BA царствовал не одно десятилетие, а ОВР и SLG ютились в тени. Диалог о бейсболе в повести «Старик и море», похоже, повлиял на судьбу этого вида спорта сильнее, чем манифест Бранча Рики.
Так что же ожидало бейсбол дальше?
Для революции в какой бы то ни было области вам нужны две составляющих: знания и необходимость.
Знания в основном приходили от обозревателя Билла Джеймса. В 1977 году, работая охранником в ночную смену, он опубликовал первый «Бейсбольный обзор от Билла Джеймса». Главная ценность этого труда состояла в ответах на инсайдерские вопросы, например: какие питчеры и кэтчеры пропустили наибольшее количество краденых баз? Вначале было продано всего 75 экземпляров, но дальше заработало сарафанное радио. В следующем году Джеймс продал уже 250 экземпляров. Пять лет спустя Джеймс заключил крупную сделку с издателем. В 2006 году журнал Time включил Джеймса (на тот момент он уже получал зарплату от «Ред Сокс») в свой рейтинг 100 самых влиятельных людей на планете.
Проницательный аналитический подход Джеймса вызвал ренессанс статистики в бейсболе. Он назвал это «саберметрика». Одна из основных идей состояла в том, что процент реализации выходов на биту — побочный, грубый показатель, не всегда отражающий фактический результат. Мы не можем судить о качестве блюда, оценив один ингредиент. Если отнестись к дегустации всерьез, лучше попробовать все ингредиенты, а еще лучше — само блюдо.
Идея была не нова, что могут подтвердить сотрудники архива Life. Джеймс стал знаменит еще и по той причине, что изменились экономические условия бейсбола. До начала 1970-х годов в контракте игрока значилась статья, запрещающая ему переходить в другую команду, и даже по истечении контракта ему нельзя было вести переговоры с другими клубами без письменного разрешения прежней команды.
В 1975 году суд отменил эту оговорку, положив начало эре «свободных агентов». Шлюзы открылись и обеспечили взрывной рост зарплат.
Еще десять лет назад владельцы команд могли покупать игроков, как продукты в бакалейной лавке. Теперь в игру вступили агенты со своими зарплатными запросами. Казалось бы, финансовое давление должно было подтолкнуть владельцев команд перейти от грубых статистических показателей наподобие BA к более надежным, например ОВР или SLG, но бейсбол — игра неторопливая, как известно всем, кроме Генри Чедвика. Одной команде, «Окленд Атлетикс», потребовалось 20 лет, чтобы прозреть и начать использовать ОВР для оценки игроков.
Пожар занялся в начале 1990-х при генеральном директоре Сэнди Алдерсоне и заполыхал вовсю при его преемнике, Билли Бине. Вскоре «Окленд Атлетикс» добилась неслыханных успехов, с умом используя статистику при покупке игроков. В 2003 году Майкл Льюис, житель района залива Сан-Франциско, написал книгу о Билли Бине. Он назвал ее “Moneyball” и на пути к продаже 67 квадриллионов экземпляров совершил то, что не получилось у Life: распрощался со старыми идеями о бейсболе. Благодаря Льюису ОВР и SLG вышли из тени и стали мейнстримом.
«Бейсбол — единственное поприще, где даже три успешных попытки из десяти делают тебя хорошим исполнителем», — сказал как-то раз великий аутфилдер Тэд Уильямс. В 1941 году Уильямс шел к тому, чтобы выбивать в среднем четыре из десяти, став «отбивающим 40,0% на бите», полубогом и легендой.
Он вышел на последнюю неделю сезона, набрав 40,6%, и мог стать первым за 11 лет отбивающим с рейтингом 40,0%. Затем он сорвался. В следующих четырех матчах из 14 выходов на биту он смог реализовать всего лишь три. Его процент упал до 39,955%. Это число выглядит нарочито, как пример для проверки школьных знаний о десятичных дробях. Разве это не 40,0%?
На следующий день ведущие газеты ясно дали понять, что округление здесь не прокатит. «Уильямс набрал 39,96%», — писала The New York Times. «Процент Уильямса упал ниже 40,0%», — объявила Chicago Tribune. «Уильямс соскользнул до 39,9%», — сообщила The Philadelphia Inquirer, пренебрегая правилами округления, а The Boston Globe, выходящая в родном городе Уильямса, просто отразила статистику: «Рейтинг на данный момент — 39,96%».
Как можно противостоять спорту, который так пристрастен ко второму знаку после запятой?
Последние два матча сезона шли подряд 28 сентября. Накануне вечером мучимый бессонницей Уильямс прошагал больше полутора километров по улицам Филадельфии. Перед первым матчем, по словам одного спортивного обозревателя, «он сидел на скамейке и грыз ногти, его исполинские руки ходили ходуном». Позже обозреватель сообщил: «Перед первым выходом на биту он дрожал как банный лист».
Однако 23-летний игрок выстоял. В тот день он выбил шесть из восьми, повысив свой показатель до 40,57%. (Авторы заголовков перестали занудствовать и округлили до 40,6%.) Прошло около 80 лет, но с тех пор никто так и не добился рейтинга 40,0%.
В 1856 году Генри Чедвик мельком увидел игру, где спортсмены, все в пыли, ловили мяч голыми руками, и решил, что летний вечер прошел не зря. Англичанин перевел ее на язык чисел. Числа обогатили ее. Спустя полтора века бейсбол стал корпоративным триумфом, зарплаты команд исчисляются сотнями миллионов. Рейтинг BA, придуманный в XIX веке, изо всех сил пытается идти в ногу с игрой XXI века, словно мальчик, который пытается голыми руками осуществить крутой бросок с низкой траекторией.
И все же, несмотря ни на что, рейтинг 40,0% продолжает завораживать. В апреле и мае, когда сезон только-только начинается и выборка данных так же мала, как почки на деревьях, часто находятся один-два игрока, чей рейтинг балансирует на грани 40,0%. Вскоре они снова исчезнут. Но около недели по земле разливается дыхание надежды, ощущение, что мифические существа, наподобие драконов или отбивающих с рейтингом 40,0%, еще не отошли в небытие. Рейтинг OBP 50,0% или SLG 80,0% никогда не будет так тревожить сердце. Мы любим рейтинг BA 40,0% не из-за его предсказательной силы или математической элегантности, а за то, что он несет в себе электрический заряд, рассказывает историю с помощью трех цифр, вернее четырех.
Возможно, ни один отбивающий больше не наберет 40,0%. В то же время не исключено, что это произойдет в следующем году. Что касается Уильямса, он отмахивается от славы. «Если бы я знал, что рейтинг 40,0% — такая уж сенсация, — сказал он 50 лет спустя, — я бы набрал его снова».