Книга: Алгоритмы для жизни: Простые способы принимать верные решения
Назад: Переподгонка повсюду
Дальше: Как бороться с переподгонкой: санкции на сложность

Выявление переподгонки: перекрестная проверка

Поскольку переподгонка изначально представляет собой теорию, которая идеально подходит под любой тип и категорию данных, может показаться, что выявить ее предательски сложно. Как мы можем выявить разницу между истинно хорошей моделью и той, которая подверглась действию переподгонки? В сфере образования как отличить класс учеников, владеющих знаниями по предмету на высоком уровне, от класса, в котором ученики всего лишь «подготовлены, чтобы сдать выпускные экзамены»? В мире бизнеса как отличить по-настоящему «звездного» сотрудника от того, кто просто умело подгоняет свою деятельность под ключевые показатели деятельности компании или видение руководителя?
Различить эти сценарии на самом деле непросто, но в этом нет ничего невозможного. Исследования в области машинного обучения помогли разработать несколько четких стратегий для выявления случаев переподгонки, и одна из самых важных – это перекрестная проверка.
Говоря простым языком, перекрестная проверка означает оценку не только того, насколько хорошо модель подходит для заданной информации, но и того, насколько успешно она может обобщить те данные, которыми не располагает. Парадоксально, но это может побудить нас использовать меньше данных. В случае с решением в пользу или против брака мы могли бы убрать два любых пункта и подстроить наши модели лишь под оставшиеся восемь. Тогда мы могли бы взять эти два пункта и использовать их, чтобы измерить, как хорошо наши функции обобщают информацию за рамками восьми «тренировочных» пунктов, которые были им заданы. Два «отложенных» пункта служили бы нам тревожным звоночком: если сложная модель попадает точно в цель, используя восемь тренировочных пунктов, но при этом ей все же отчаянно не хватает двух тестовых факторов, то велик шанс, что сюда вмешалась переподгонка.
Помимо этого, можно протестировать модель на данных, полученных полностью из какой-либо другой системы оценки. Как мы видели, использование систем показателей – например, вкуса как показателя питательности – тоже может привести к переподгонке. В этих случаях нам необходимо провести перекрестную проверку первоначального измерения, которое мы использовали, относительно других возможных измерений.
Например, в школах использование стандартизированных тестов несет массу преимуществ, включая экономию с точки зрения шкалы оценок: их можно оценивать тысячами, просто и быстро. Тем не менее наряду с такими тестами школы могли бы произвольно оценивать студентов небольшими группами, используя другой метод оценки, – возможно, написание эссе или устный экзамен. (Поскольку таким образом можно проверить знания лишь нескольких студентов за раз, иметь этот способ оценки в качестве запасного не представляется необходимым.) Стандартизированные тесты позволят получить незамедлительный результат оценки знаний студентов (вы можете устраивать короткий экзамен на компьютере каждую неделю и отслеживать успехи класса практически в режиме реального времени, например), в то время как вторичные точки данных послужат для перекрестной проверки. Вы сможете удостовериться, что студенты действительно овладели теми знаниями, которые должен был оценить стандартизированный тест, а не просто научились лучше решать тестовые задания. Если оценки по стандартизированным тестам улучшились, а «нестандартизированная» активность движется в противоположном направлении, это должно послужить предупредительным сигналом для администрации учебного заведения: знания и навыки учеников начали превосходить механику самого теста.
Перекрестная проверка также предлагает отличное решение для сотрудников военных и правоохранительных органов, желающих выработать правильные рефлексы, которые не помешают им в реальной работе. Таким же образом, как эссе или письменный экзамен могут перепроверить результаты по стандартизированным тестам, так же может применяться и внезапная новая «перекрестная тренировка» для оценки времени реагирования и точности стрельбы в рамках незнакомого задания. Но если показатели перекрестной тренировки низки, то это послужит сигналом о необходимости изменения системы тренировок. И, хотя никакие тренировки не могут на самом деле подготовить нас к настоящему сражению, подобные упражнения могут хотя бы предупредить образование шрамов тренировок.
Назад: Переподгонка повсюду
Дальше: Как бороться с переподгонкой: санкции на сложность