«Если бы у меня был мозг…» – поет Страшила в «Волшебнике из страны Оз». Но Страшила не знал, что у него есть мозг, ведь без него он не мог бы ни петь, ни разговаривать. Ему было всего два дня, и основная его проблема заключалась в отсутствии опыта. Со временем, постепенно узнавая мир вокруг себя, он стал одним из самых мудрых существ в стране Оз; мудрым настолько, чтобы осознать пределы своих возможностей. Напротив, Железный дровосек пел: «Если бы у меня было сердце…» Он спорил со Страшилой, что важнее: мозг или сердце? В стране Оз, как и в реальном мире, знания совместно с эмоциями и создают в процессе обучения интеллект. Оба качества – продукты мозга, находящиеся в хрупком равновесии. Эта классическая история отражает основную тему данной главы: что если бы ИИ имел сердце и мозг?
Когда мы с Джеффри Хинтоном (рис. 4.1) встретились в 1979 году на организованном им семинаре, у нас были похожие взгляды на возможности нейронных сетей. Мы быстро нашли общий язык и позже стали вместе работать над открытием нового типа модели нейронных сетей, названной Машиной Больцмана, речь о которой пойдет в главе 7. Новая модель пробила плотину, целое поколение сдерживающую изучение многослойных нейронных сетей.
Раз в несколько лет Джеффри звонил мне и говорил: «Я понял, как работает мозг». Каждый раз появлялась умная схема для улучшения работы моделей нейронных сетей. Потребовалось много таких идей и уточнений для глубокого обучения в многослойных нейронных сетях, чтобы достичь уровня производительности, сопоставимой с человеческим, при распознавании объектов на фотографиях и речи во время звонка по телефону. Эти возможности получили широкое распространение всего несколько лет назад и теперь широко известны, но путь был долгим.
Рис. 4.1. Джеффри Эверест Хинтон в начале карьеры (слева) и в 1979 году во время работы на своем семинаре по параллельным моделям ассоциативной памяти в Ла-Хойя в Сан-Диего. Его второе имя – Эверест – было дано в честь Джорджа Эвереста, который исследовал Индию и выяснил, как измерить высоту самой высокой в мире горы, которая теперь носит его имя. Фотографии сделаны с разницей в 15 лет
Джеффри получил степень бакалавра психологии в Кембридже и защитил докторскую диссертацию по ИИ в Эдинбургском университете вместе с Кристофером Лонге-Хиггинсом, выдающимся химиком, который изобрел первую модель нейронной сети с ассоциативной памятью. В то время доминирующая парадигма искусственного интеллекта основывалась на написании программ, которые использовали символы, логику и правила, кодифицировавшими интеллектуальное поведение. Когнитивные психологи использовали этот подход для понимания человеческого восприятия и в особенности языков. Джеффри плыл против течения. Никто не мог предположить, что однажды он выяснит, как работает мозг. Его лекции убедительны, он может объяснить абстрактные математические концепции с ясностью, которая требует лишь незначительных познаний в математике. Его остроумие и сдержанный юмор очаровательны. Джеффри по натуре склонен к соперничеству, особенно когда дело касается мозга.
Когда мы впервые встретились, Джеффри был научным сотрудником Калифорнийского университета в Сан-Диего в группе параллельной распределенной обработки под руководством Дэвида Румельхарта и Джея Макклелланда. Джеффри считал, что сети простых процессоров, работающих параллельно и изучающих примеры, – лучший способ понять восприятие. Он был центральной фигурой в вышеупомянутой группе, исследовавшей, как слова и язык могут восприниматься в качестве распространения функции, распределенной по многочисленным узлам сети.
Традиционный подход к языку в когнивистике (науке о мышлении) основан на символических представлениях. Слово «чашка», например, является символом, который обозначает все чашки в целом. Прелесть символов в том, что они позволяют нам упрощать сложные идеи и работать уже с ними. Однако у символов есть проблема: они настолько сжаты, что их трудно использовать в реальном мире, где чашки бывают разных форм и размеров. Нет логической программы, которая могла бы определить, что конкретно является чашкой, или отыскать ее на картинке, в то время как люди справляются с этим весьма успешно.
Абстрактные понятия, например, справедливость или мир, определить еще труднее. Альтернатива – распределение чашек с помощью схем активности большой популяции нейронов, которые смогут зафиксировать как сходства, так и различия. Это наделяет символ богатой внутренней структурой, отражающей его суть. Проблема в том, что в 1980 году никто не знал, как создать такую внутреннюю структуру.
Мы с Джеффри были не единственными, кто в 1980-х годах верил, что нейронная сеть сможет достичь интеллектуального поведения. Ряд ученых по всему миру, большинство в одиночку, разработали специализированные модели нейронной сети. Например, Кристоф фон дер Мальсбург создал модель распознавания образов, основанную на связи нейронов, передающих импульс. Позже он показал, как эта система может распознавать лица на фотографиях. Кунихико Фукусима из Осакского университета в Японии изобрел неокогнитрон – многослойную сеть, основанную на строении зрительной системы. Эта сеть использовала сверточные фильтры и простейшую модель пластичности Хебба и была прямым предшественником сетей глубокого обучения. Теуво Кохонен, инженер-электрик из Хельсинского университета в Финляндии, разработал самоорганизующуюся сеть, которая могла научиться группировать сходные входные данные, например звуки речи, в двумерную карту так, что разные звуки будут представлены на этой карте разными процессорами, где аналогичная входная информация активирует соседние области выхода. Основным преимуществом сети Кохонена было отсутствие необходимости обозначать каждую категорию входных данных. Создание специальных меток для обучения перцептрона и других контролируемых сетей стоит дорого. У Кохонена был только один шанс, и он вложил в него все силы.
Многообещающая ранняя попытка систематизировать вероятностные сети принадлежала Джуде Перлу из Калифорнийского университета в Лос-Анджелесе. Он представил сети доверия, которые связывают элементы в сети для определения вероятности – например, вероятности того, что трава мокрая из-за оросителя или потому что прошел дождь. Это мощная основа для отслеживания причинно-следственных связей в окружающем нас мире, однако у нее был роковой недостаток: трудно определить все вероятности. Для автоматического нахождения вероятностей с использованием алгоритмов обучения требовался прорыв. Это стимулировало создание алгоритмов обучения нейронных сетей, речь о которых пойдет во второй части книги.
У этих и других попыток создания нейросетей была общая черта: ни одна из них не работала достаточно хорошо для того, чтобы решать проблемы окружающего нас мира. Более того, первопроходцы редко объединяли свои усилия, что замедляло прогресс. Как следствие, лишь немного ученых, изучающих ИИ в МТИ, Стэндфордском университете и Университете Карнеги – Меллон, воспринимали нейронные сети всерьез. Обработка символов на основе правил получала бо́льшую часть финансирования и заданий. Работать над нейронными сетями в ту эпоху – это как быть млекопитающим, покрытым мехом, в эпоху динозавров.