Поклонение данным
Если бы мы имели огромный объем данных, полученных на основании одной идеально подготовленной репрезентативной выборки (безошибочно точной и отражающей конкретно то, что мы пытаемся оценить), лучшим подходом было бы использование наиболее сложной модели. Но если мы попытаемся максимально подстроить нашу модель под те данные при условии, что какой-либо один фактор будет варьироваться, то мы рискуем получить эффект переподгонки.
Другими словами, угроза переподгонки возникает каждый раз, когда мы имеем дело с изменяющимися данными или ошибками в измерениях, а это означает – постоянно. Ошибки могут быть допущены при сборе информации или при передаче данных. Иногда изучаемым феноменам вроде человеческого счастья трудно даже дать определение, не то что измерить их. Благодаря своей гибкости наиболее сложные из моделей могут подстроиться под любую структуру данных, но этот факт также означает, что эти модели смогут подстроиться и под те структуры, которые представляют собой лишь образ данных, состоящий из «помех» и ошибок.
На протяжении всей истории религиозные тексты предостерегали своих последователей против идолопоклонничества – поклонения статуям, изображениям, мощам и другим материальным артефактам вместо тех божественных сущностей, которых олицетворяют те артефакты. Например, первая заповедь предупреждает против поклонения «любому изображению или подобию того, что на небе вверху». А в Книге Царств бронзовая змея, сделанная по велению Бога, становится объектом молитв и курения фимиама вместо самого Бога. (И Бог не был доволен.) В глобальном смысле переподгонка – это своего рода поклонение данным, последствие концентрации на том, что мы можем измерить, а не на том, что действительно имеет значение.
Разница между имеющимися у нас данными и прогнозами, которые мы хотим получить, имеет место практически всегда. Когда мы принимаем важное решение, мы можем лишь гадать, что придется нам по нраву позже, рассматривая те факторы, которые важны для нас сейчас. (Как писал Дэниэл Гилберт из Гарварда, мы в будущем часто «платим большие деньги, чтобы свести татуировки, сделанные за не меньшие деньги».) Подготавливая финансовый прогноз, мы можем рассматривать только те факторы, которые оказывали влияние на цену акций в прошлом, но не на то, что может повлиять на нее в будущем. Даже в наших будничных делах прослеживается та же тенденция: отправляя электронное письмо, мы пробегаем глазами по тексту, пытаясь предугадать реакцию получателя. Так же как и в опросах общественного мнения, данные в реальной жизни всегда содержат определенные помехи и колебания.
Впоследствии рассмотрение большего количества факторов и трата больших усилий на то, чтобы переложить их в модель, может привести к тому, что мы сделаем выбор в пользу неверного фактора, предлагая молиться бронзовой змее данных, а не той великой силе, которая стоит за ними.