Хитовый промысел

Инвестирование в кино – рискованный бизнес. Прибыль приносят немногие проекты, большей частью они едва окупаются, а изрядную долю кинопродукции составляют фильмы неудачные. Ставки высоки – затраты на производство доходят до десятков, а то и сотен миллионов долларов, и ошибки в оценке зрительского интереса порой обходятся катастрофически дорого.

В 2012 году студия Disney, выпустив фильм “Джон Картер”, убедилась в этом на собственном горьком опыте. Съемки стоили киностудии 350 миллионов долларов, и предполагалось, что это кино станет еще одной крупной франшизой наряду с “Историей игрушек” и “В поисках Немо”. Не смотрели? Я тоже. Лента не нашла отклика в душах зрителей, дело кончилось убытком в 200 миллионов долларов и отставкой главы Walt Disney Studios.

Сильные мира Голливуда признают, что точно предсказать коммерческий успех фильма невозможно. В этой сфере все держится на шестом чувстве. Всегда есть шанс сделать ставку на фильм, который впоследствии обрушит кассу. Вот что сказал в 1978 году Джек Валенти, тогда президент Американской ассоциации кинокомпаний: “Никто не скажет вам, как поведет себя фильм на рынке. Пока не начнется кино и в темном зале между экраном и зрителями не пролетит какая-то искра, вы этого не узнаете”. Спустя пять лет, в 1983 году, Уильям Голдман, автор сценариев к фильмам “Принцесса-невеста” и “Бутч Кэссиди и Санденс Кид”, сформулировал ту же мысль коротко и ясно: “Никто ничего не знает”.

Но, как мы уже не раз убеждались, прогнозирование того, что вроде бы не поддается прогнозу, для алгоритмов – дело привычное. Почему в кино должно быть иначе? Интерес к ленте, прибыль и отзывы критиков можно измерить. Различные факторы, касающиеся ее особенностей и структуры, как то: звездность актерского состава, жанр, бюджет, продолжительность демонстрации, характерные детали сюжета и прочие, – все это тоже можно оценить в цифрах. Тогда почему бы не поискать крупную жемчужину с помощью уже известных методов? Можно ли отобрать те фильмы, которым на роду написан кассовый успех?

Эта грандиозная задача подстегнула ряд новых исследований, в ходе которых ученые постарались проникнуть в тайны и глубины богатейшего пула информации, собранной и обработанной такими сайтами, как Internet Movie Database (IMDb, база данных о кино) и Rotten Tomatoes. Оказалось – и вполне ожидаемо, – что из этих данных можно сделать кое-какие любопытные выводы.

Для примера посмотрим работу Самита Сринивасана 2013 года. Он выяснил, что на сайте IMDb, где пользователям предлагалось отметить ленты ключевыми для сюжета словами, составлен подробнейший каталог указателей, по которому можно судить об эволюции наших предпочтений в кино. Ко времени его исследования каталог IMDb насчитывал два миллиона наименований фильмов, снятых за сто с лишним лет, и сюжету каждого из них отвечало множество тегов. Одни ключевые слова – например, “организованная преступность” и “отцы и дети” – описывали фильм в общих чертах, в других действие ассоциировалось с местом (“Манхэттен, Нью-Йорк”) или указывались специфические детали сюжета (“держать на прицеле”, “привязан к стулу”).

По одним только ключевым словам видно, как вдруг вспыхивает интерес зрителей к определенным деталям сюжета; взять, к примеру, фильмы о Второй мировой войне или те, в которых поднимается тема абортов. Сразу вслед за выходом такого кино выпустят еще несколько картин на ту же тему, после чего наступит затишье. По совокупности всех тегов Сринивасан смог оценить по шкале от нуля до единицы новизну идей в каждой ленте на момент ее выпуска и сопоставить эти оценки с кассовыми сборами.

Если какой-то поворот сюжета или его характерная особенность – скажем, обнаженное женское тело или мафия – уже встречались в фильмах прошлых лет, ключевое слово приносило ленте мало очков за новизну. В свою очередь, любые оригинальные решения – например, введение восточных единоборств в боевики семидесятых годов – существенно повышали индекс новизны, при условии, что это решение появлялось на экране впервые.

Как выяснилось, мы воспринимаем новинки неоднозначно. В среднем больше сборов делали ленты с более высокими индексами новизны. Но до известного предела. Стоит только передавить и превысить определенный порог новизны – и жди беды; если этот показатель был выше 0,8, прибыли, которые мог принести фильм, резко падали. Исследование Сринивасана подтвердило давние подозрения социологов – банальность нас отталкивает, но и совсем незнакомое мы тоже принимаем в штыки. Лучшее кино занимает позиции в узкой зоне золотой середины между “новым” и “не самым новым”.

Индекс новизны мог бы подсказать киностудиям, как уберечься от финансирования провальных проектов, однако он не поможет узнать судьбу конкретной ленты. Пожалуй, здесь полезнее была бы работа европейских исследователей. Они установили корреляцию между количеством изменений, внесенных в статью о фильме в “Википедии” за последний месяц перед премьерой, и финальной суммой кассовых сборов. Правят статьи нередко люди, не имеющие отношения к выходу фильма на экраны, – это просто фанаты кино, которые добавляют в статью какую-то информацию. Если статью многократно редактировали, значит, новое кино вызвало интерес, что, в свою очередь, приводит к более высоким финансовым показателям.

В целом этот метод имел весьма скромную прогностическую ценность – верный прогноз прибыли был дан для 70 лент из 312 с точностью 70 % и выше. Но чем удачнее шел прокат и чем активнее корректировалась статья в “Википедии”, тем больше информативных данных получали исследователи и тем точнее становились их прогнозы. Для шести высокодоходных лент кассовые сборы были предсказаны с точностью 99 %.

Эти исследования интересны в научном плане, однако инвесторам мало толку от модели, которая работает только за месяц до выхода фильма в прокат. А что, если попытаться решить задачу авансом, то есть исходя из уже известных фактов, таких как жанр, популярность актеров, занятых в главных ролях, возрастные ограничения (“рекомендовано для просмотра с родителями”, 12+ и так далее), с помощью алгоритма машинного обучения рассчитать вероятность успешного проката?

В 2005 году такое исследование было проведено и имело резонанс – были предприняты попытки использовать нейросеть для прогнозирования популярности фильмов задолго до их появления на экранах кинотеатров. Авторы работы решили максимально упростить задачу, поэтому не стали заниматься предсказаниями точной суммы выручки, а рассортировали ленты по девяти категориям от самых провальных до лидеров проката с огромными сборами. К сожалению, даже с таким упрощением результаты не порадовали. Тогда нейросеть показала себя лучше всех предыдущих статистических методик, но все равно в среднем оценила фильмы верно всего лишь на 36,9 %. Чуть более точным было попадание в топовой категории, для фильмов с предполагаемой выручкой свыше двухсот миллионов долларов, – блокбастеры нейросеть определила с точностью 47,3 %. Но инвесторы посматривают на все это с недоверием. Порядка десяти процентов тех лент, которым алгоритм прочил бешеный успех, на деле принесли, по голливудским меркам, жалкие гроши – меньше двадцати миллионов долларов.

С тех пор ученые еще не раз пытались повысить точность прогнозов, но существенного прорыва в этой области не произошло. Все факты свидетельствуют об одном и том же – пока нет данных о реакции тех, кто уже посмотрел кино, предсказать его дальнейшую судьбу почти невозможно. Если надо выбрать кассовую ленту среди многих других, прав Голдман. Никто ничего не знает.