SEXNET

В качестве примера того, как перцептрон можно использовать для решения реальной задачи, попробуем отличить мужское лицо от женского, если убрать волосы, ювелирные изделия и вторичные половые признаки, такие как кадык, который у мужчин обычно крупнее. Беатрис Голомб, научный сотрудник моей лаборатории, в 1990 году получила базу данных с фотографиями студентов колледжа и использовала их как входные данные для перцептрона, который был обучен определять пол по лицу с точностью 81 процент. Лица, при распознавании которых перцептрон испытывал трудности, были трудны и для людей. Работники моей лаборатории справились с тем же заданием с результатом 88 процентов. Беатрис также обучила многослойный перцептрон, который достиг точности 92 процента, что лучше результата многих людей (речь о нем пойдет во второй части книги). Это позволило ей в 1991 году на Конференции NIPS объявить: «Поскольку опыт улучшает производительность, значит, сотрудники лаборатории должны тратить больше времени на определение пола». Она назвала нейросеть SEXNET. Во время, отведенное для вопросов, кто-то спросил, может ли SEXNET определить лицо трансгендера. «Да», – ответила Беатрис, на что Эд Познер, учредитель конференции, сказал: «Это будет «DRAGNET».

Рис. 3.6. Человеку какого пола принадлежит лицо на изображении? Перцептрон был обучен распознавать женские и мужские лица. Пиксели на изображении лица (слева) умножаются на соответствующий вес (справа), и полученная сумма сравнивается с порогом. Размер каждого веса отображается как площадь пикселя. Положительный вес (белый) является признаком мужских лиц, а отрицательный вес (черный) – женских. Ширина носа, размер области между носом и ртом, а также интенсивность изображения вокруг области глаз важны для определение лица как мужского, в то время как интенсивность изображения вокруг рта и скул – для распознавания женских

Интересной задачу делает то, что, хоть мы и хорошо умеем отличать мужские лица от женских, мы не можем перечислить конкретные черты. Это проблема распознавания образов, которая зависит от объединения данных из большого количества низкоуровневых признаков, поскольку ни один из них не является окончательным. Преимущество перцептрона в том, что вес дает подсказки, какие части лица наиболее информативны для определения пола (рис. 3.6). Примечательно, что губной желобок (вертикальное углубление между носом и верхней губой) – одна из самых характерных черт, он намного крупнее у мужчин. Область вокруг глаз (больше у мужчин) и щеки (больше у женщин) также достаточно информативны. Перцептрон извлекает информацию обо всех отличительных признаках, чтобы принять решение. Примерно то же самое делает и человек, хоть он вряд ли сможет объяснить ход своих рассуждений.

Розенблатт доказал теорему сходимости перцептрона в 1957 году. Это стало огромным шагом вперед, а демонстрация работы системы впечатляла. При поддержке Управления военно-морских исследований Министерства обороны США он создал аналоговый компьютер с 400 фотоэлементами на входе с весами, который представляли собой потенциометры переменного сопротивления, регулируемые двигателями. Аналоговые сигналы непрерывно менялись так же, как сигналы от виниловых пластинок. Если внести в перцептрон множество фотографий с танками и без, он научится распознавать танки на незнакомых для него изображениях. Сообщение об этом в New York Times стало сенсацией (см. рис. 3.4).

Перцептрон способствовал появлению математического анализа разделения шаблонов в многомерном пространстве. Интуитивные предположения о точках в трехмерном пространстве, в котором мы и живем, вводят нас в заблуждение, когда точки расположены в пространстве с тысячами измерений. Русский математик Владимир Вапник представил классификатор, названный «Метод опорных векторов», который обобщил принципы работы перцептрона и стал широко использоваться в машинном обучении. Он нашел путь к автоматическому обнаружению плоскости, которая максимально разделяет две категории (см. рис. 3.5, линейный случай). Это делает обобщение более устойчивым к погрешностям измерения точек в пространстве, и в сочетании с так называемым ядерным трюком (kernel trick), который является нелинейным расширением, алгоритм стал основным в машинном обучении.

Закат перцептронов

Тем не менее существовало ограничение, затрудняющее исследования. Упомянутое выше примечание «…если такой набор веса существует» ставит вопрос: какие задачи могут быть решены с помощью перцептронов, а какие – нет? Очень простое распределение точек в двух измерениях не может быть распознано перцептроном (см. рис. 3.5, нелинейные случаи). Оказалось, что «танковый» перцептрон классифицирует не танки, а время суток. Классифицировать танки на изображениях гораздо сложнее, и это невозможно сделать с помощью перцептрона. Это также показывает, что даже если перцептрон чему-то научился, то не обязательно тому, что вы хотели.

Рис. 3.7. Обложка книги «Перцептроны». Две красные спирали выглядят одинаково, но они разные. Верхняя – это две разные, несоединенные спирали, в то время как нижняя – единая спираль, в чем вы можете убедиться, если проведете внутри нее карандашом. Минский и Пейперт доказали, что перцептрон не может найти отличия между ними. А вы сможете это сделать без отслеживания? Почему нет?

Последним ударом по перцептрону стал математический трактат Марвина Минского и Сеймура Пейперта «Перцептроны», опубликованный в 1969 году. Их геометрический анализ показал, что возможности перцептрона ограничены. Перцептроны могут разграничивать только линейно отделимые категории (см. рис. 3.5). В конце книги авторы рассмотрели перспективу обобщения однослойного перцептрона на несколько слоев, где один слой переходил в следующий. Многослойные перцептроны более мощные, чем линейные классификаторы, но Минский и Пейперт выражали сомнение, что создание таковых в принципе осуществимо. К сожалению, многие посчитали их сомнения истинными и окончательными, и перцептрон был заброшен, пока новое поколение исследователей нейронных сетей в 1980-х годах не взглянуло на проблему с другой стороны. Обложка книги иллюстрирует геометрическую задачу, которую, по мнению авторов, перцептрон не сможет решить (рис. 3.7). Иронично, но эта проблема трудна и для людей.

В перцептроне входная информация вносит независимые данные в блок выхода. Но что делать, если несколько входных данных должны быть объединены таким образом, чтобы решения зависели от комбинации, а не от каждого факта отдельно? Это и есть причина, по которой перцептрон не может определить, единая спираль или нет: один пиксель не несет никакой информации о том, находится он внутри или снаружи. В многослойном перцептроне возможно соединение комбинаций на промежуточных слоях между модулями входа и выхода. Однако в 1960-х годах ученые не знали, как обучить сеть даже с одним промежуточным слоем.

Фрэнк Розенблатт и Марвин Минский были одноклассниками в Высшей научной школе Бронкса. Они обсуждали свои радикально разные подходы к ИИ на научных встречах, и Минский лидировал. Каждый из них внес важный вклад в понимание перцептрона, что стало отправной точкой глубокого обучения, и очень жаль, что их противостояние закончилось.

Розенблатт трагически погиб при крушении лодки в 1971 году в возрасте 43 лет. Споры о перцептроне были в самом разгаре, и ходили слухи, что он был в подавленном состоянии и, возможно, даже совершил самоубийство. Стало ясно, что «золотой век» открытий новых способов вычислений с помощью нейронных сетей подходит к концу, и сменилось целое поколение, прежде чем исследования Розенблатта были возобновлены.