Книга: Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет
Назад: Дело против А. Н. Хомского
Дальше: Шаги

Дело против «черных ящиков»

Оглядываясь назад, я понимаю, что бихевиоризм и когнитивная наука, которые в XX веке использовали противоположные подходы к поведению, совершили одну и ту же ошибку, проигнорировав мозг. Бихевиористы не хотели вводить себя в заблуждение самоанализом, поэтому взяли за правило не искать решений в мозге. Они считали, что можно открыть законы поведения, тщательно контролируя входы и выходы «черного ящика». Сторонники функционализма в когнитивистике отвергали бихевиоризм и полагали, что могут разобраться во внутреннем представлении разума, но они тоже отказались от изучения мозга, думая, что детали, как мозг реализует представления, не имеют значения. Внутренние представления, разработанные функционалистами, основывались на интуиции и житейской психологии и были ненадежны. Природа оказалась умнее их.

Выявить внутренние представления и законы поведения «черного ящика» чрезвычайно сложно. Если когда-нибудь мы откроем законы поведения, вполне возможно, что мы сумеем дать им функциональное объяснение, хотя оно, вероятно, будет столь же парадоксальным, как квантовая механика для физиков. Чтобы открыть их, нам понадобится вся доступная помощь мозга. Глубокое обучение – хороший пример прогресса, которого можно достигнуть, обращая внимание на некоторые общие особенности архитектуры мозга и общие принципы его работы. Я не сомневаюсь, что ортодоксальные когнитивисты будут протестовать, но давайте двигаться вперед, а не оглядываться назад. На каждом этапе добавление новой функции из архитектуры мозга повышало функциональность глубоких сетей: иерархия корковых областей, соединение глубокого обучения с обучением с подкреплением, рабочая память в рекуррентных сетях, долговременная память о фактах и событиях. Это только первые шаги, и в мозге много механизмов, которые мы еще не использовали.

Нейробиологи, изучающие восприятие, память и принятие решений, используют задачи, как правило, основанные на экспериментах, в которых животных обучают давать желаемый ответ на стимул. После нескольких месяцев тренировок эти простимулированные реакции становятся больше рефлекторными, чем осознанными, что может выявить механизмы, лежащие в основе нашего привычного поведения, но не нашего когнитивного поведения. Мышление – не рефлекс и может происходить без какого-либо сенсорного стимула. Но традиционный способ проведения экспериментов игнорирует текущую спонтанную активность, которая сохраняется и без внешних раздражителей. Необходимы новые методы для изучения внутренней деятельности, не связанной ни с сенсорными, ни с моторными функциями, включая сознательное мышление и неосознанную обработку информации. Эти методы уже появляются: эксперименты по визуализации мозга выявили состояния покоя, которые спонтанно возникают, когда испытуемого помещают в сканер и просят отдохнуть. Когда нечего делать, разум блуждает, и мысли проявляются как изменяющаяся модель активности мозга, которую мы уже видим, но еще не понимаем.

Визуализация мозга и особенно неинвазивная функциональная магнитная томография открыли новые способы изучения социальных взаимодействий и принятия решений, породив область, названную нейроэкономикой. Люди не рациональны, как предполагала классическая экономика, и нам нужно построить поведенческую экономику, основанную на человеческих суждениях и мотивации, возникающей из сложных внутренних состояний мозга. Как мы увидели в главе 10, дофаминовые нейроны оказывают мощное влияние на мотивацию, представляя ошибку предсказания вознаграждения. Нейровизуализация социальных взаимодействий исследовала человеческую мотивацию способами, которые невозможны с чисто поведенческими экспериментами. Цель в том, чтобы заменить теорию рациональных решений, основанных на логике, теорией вероятностных решений, основанных на предыдущем опыте.

Дело против М. Л. Минского

История становления нейронных сетей – пример того, как небольшая, но влиятельная группа может помешать развитию конкурирующего направления исследований. В конце книги «Перцептроны» Марвин Минский и Сеймур Пейперт (рис. 17.5) выразили мнение, что алгоритм обучения перцептронов не может быть распространен на многослойные перцептроны:

«Проблема расширения не только техническая. Она также стратегическая. Перцептрон показал себя достойным изучения, несмотря на свои строгие ограничения и даже благодаря им. У него много особенностей, привлекающих внимание: линейность, интересная формула обучения, простая парадигма при схожести с параллельными вычислениями. Нет никаких оснований полагать, что какие-либо из этих достоинств будут присутствовать у многоуровневого варианта. Тем не менее мы считаем важной исследовательской задачей прояснить (или отвергнуть) наше интуитивное суждение, что расширение бесперспективно. Возможно, будет обнаружена какая-то мощная теорема сходимости или иная глубокая причина, по которой нельзя создать интересную «формулу обучения» для многослойной машины».



Рис. 17.5. Марвин Минский и Сеймур Пейперт примерно в то время, когда они писали «Перцептроны». Их книга была отличным математическим анализом простых сетей, но оказала сдерживающее воздействие на поколение исследователей, которые применяли подходы к ИИ, основанные на обучении в многослойных сетях





Действительно, бесперспективно. Негативное мнение в замечательной книге пагубно сказалось на развитии обучения в нейронных сетях и отодвинуло исследования на целое поколение. Лично я извлек выгоду из этой задержки, потому что она сделала мою карьеру возможной, хотя и непростой. Но Минский, вероятно, не был таким могущественным, как мы себе представляли. У меня был шанс «заглянуть за кулисы» на закате его карьеры.

В 2006 году меня пригласили в Дартмутский колледж на конференцию AI@50, посвященную годовщине известного летнего исследовательского проекта по ИИ, проведенного в 1956 году. Присутствовали пять из десяти участников конференции 1956 года: Джон Маккарти из Стэнфорда, Марвин Минский из МТИ, Тренчард Мор из IBM, Рэй Соломонофф, прибывший из Лондона, и Оливер Селфридж из МТИ. Это была увлекательная встреча как в научном, так и в социальном плане.

Такео Канадэ из Университета Карнеги – Меллона выступил с докладом «Зрительное восприятие ИИ: прогресс и отсутствие прогресса». В 1960-х компьютерная память была крошечной по сегодняшним меркам и могла хранить в памяти только одно изображение за раз. В своей докторской диссертации в 1974 году Такео показал, что он может найти танк на одном изображении, но пришел к выводу, что это слишком сложно сделать на других, где танк иначе расположен или освещен. К тому времени когда его первые ученики получили научные степени, они могли распознавать танки в более общих условиях, потому что компьютеры стали мощнее. Сегодня его ученики могут распознавать танки на любом изображении. Разница в том, что сегодня у нас есть доступ к миллионам изображений под разными углами и с разным освещением, а компьютеры мощнее в миллионы раз.

В докладе «Разум и тела» Род Брукс отталкивался от своего опыта создания роботов, умеющих ползать и передвигаться зигзагами. У деревьев нет мозга, потому что они не двигаются. Разум эволюционировал в мозге, чтобы контролировать движения, а тела эволюционировали, чтобы взаимодействовать с миром через разум. Брукс отошел от традиционных контроллеров, применяемых робототехниками, и использовал поведение, а не вычисления как модель при проектировании роботов. По мере того как мы узнаем больше о создании роботов, становится очевидно, что тело – часть разума.

Евгений Чарняк из Университета Брауна выступил с докладом «Почему обработка естественного языка стала статистической обработкой естественного языка». Основная роль грамматики – помечать части речи в предложении. Это то, чему людей можно научить лучше, чем программу. Компьютерная лингвистика первоначально пыталась применить генеративную грамматику, впервые предложенную Хомским в 1980-х годах, но результаты оказалась разочаровывающими. В конечном итоге пришлось привлечь студентов из Университета Брауна, чтобы они вручную пометили части речи в тысячах статей из Wall Street Journal, а затем применить статистические методы, чтобы определить, какой частью речи с большей вероятностью будет то или иное слово, если оно стоит рядом с другими конкретными словами. Необходимо много примеров, потому что у большинства слов несколько значений, и каждое слово может оказаться в массе контекстов. Автоматическое помечание частей речи в предложениях – теперь решаемая задача, основанная на машинном обучении.

У этих историй успеха схожий путь: в прошлом компьютеры были медленными и позволяли исследовать только игрушечные модели с малочисленными параметрами, но эти игрушечные модели плохо масштабировались на данные из реального мира. Когда компьютеры стали быстрее, а данных – больше, появилась возможность собирать более сложные статистические модели и находить больше признаков и связей между ними. Глубокое обучение автоматизирует этот процесс. Вместо экспертов, вручную ищущих признаки для каждого приложения, глубокое обучение может само извлечь их из очень больших наборов данных.

Это снижает трудозатраты на вычисления, и по мере того, как вычисления продолжат дешеветь, все больше задач, которые научные работники кропотливо решали вручную, будут выполнятся с помощью мощных компьютеров. В конце встречи Марвин Минский подвел итоги. Он начал с того, что сказал, как был разочарован выступлениями и тем, куда движется вся область данной науки. Он пояснил это так: «Вы не работаете над проблемой общего интеллекта. Вы просто работаете над приложениями». Конференция знаменовала прогресс, которого мы достигли, и упрек был неприятен. Я читал доклад о достижениях в обучении с подкреплением и впечатляющих результатах TD-Gammon в обучении сетей игре в нарды на чемпионском уровне, которые, как я думал, впечатлят Минского. Но он сбросил их со счетов как простую игру.

Что Минский имел в виду под общим интеллектом? В своей книге «Общество разума» он исходит из того, что общий интеллект возникает из взаимодействия между более простыми программными агентами. Минский как-то сказал, что самым большим источником идей для его теории стала попытка создать машину, которая использует роботизированную руку, видеокамеру и компьютер, чтобы строить домики из детских кубиков (см. рис. 2.1). Это подозрительно похоже на приложение. Конкретное приложение заставляет сосредоточиться и добраться до сути проблемы в тех случаях, когда не годится абстрактное теоретизирование. Успехи, о которых сообщили участники конференции в Дартмуте, стали результатом глубокого понимания реальных проблем, которое прокладывает путь к более общему теоретическому пониманию. Возможно, когда-нибудь из этих ограниченных успехов в сфере ИИ появится лучшая теория общего интеллекта.

Наш мозг не варится в своем котелке, побулькивая абстрактными мыслями. Мозг тесно связан со всеми частями тела, которые в свою очередь тесно связаны с миром через органы чувств и моторные реакции. Поэтому биологический интеллект телесен. Еще более важно то, что мозг развивается в течение длительного времени, взаимодействуя с окружающим миром. Обучение – процесс, который совпадает с процессом развития и продолжается после достижения зрелости, особенно у людей. Поэтому обучение занимает центральное место в развитии общего интеллекта. Интересно, что одна из самых сложных нерешенных проблем в ИИ – здравый смысл, который совершенно отсутствует у детей и медленно проявляется у большинства людей после продолжительного общения с миром. Эмоции и эмпатия, которые в ИИ часто игнорируются, также важная часть интеллекта. Эмоции – глобальные сигналы для подготовки мозга к действиям, которые не могут быть решены локальными состояниями мозга.

В завершающий день конференции AI@50 состоялся банкет, на котором пять участников Дартмутского летнего исследовательского проекта по ИИ 1956 года сидели за высоким столом с видом на зал. В конце ужина они сделали краткие замечания о встрече и будущем ИИ. Когда после их выступления разрешили задать вопросы, я спросил Минского: «В сообществе исследователей нейронных сетей есть теория, что вы дьявол, который ответственен за упадок нейронных сетей в 1970-х годах. Вы дьявол?» Минский начал тираду о том, как мы не понимаем математических ограничений наших сетей. Я перебил его: «Доктор Минский, я задал вам вопрос, на который нужно ответить «да» или «нет». Так вы дьявол или нет?» После недолгих колебаний он выкрикнул: «Да, я дьявол!»

Минский был не единственным, из-за кого в 1970-х годах замедлились исследования нейронных сетей. Фрэнк Розенблатт создал аналоговый компьютер, разработанный для имитации перцептрона, потому что цифровые компьютеры ужасно медленно воспроизводили сетевые модели, которым требовался большой объем вычислений. К 1980-м годам мощность компьютеров значительно возросла, и мы смогли исследовать алгоритмы обучения с помощью моделирования небольших сетей. Но только в 2010-х годах вычислительных мощностей стало достаточно, чтобы масштабировать сети до размеров, способных решать практические задачи.

Ирония моего диалога с Минским в том, что его диссертация по математике, которую он защитил в Принстонском университете в 1954 году, содержала теоретические и экспериментальные исследования вычислений в нейронных сетях. Он даже сконструировал небольшие сети из электронных компонентов, чтобы посмотреть, как они себя ведут. Когда я был аспирантом-физиком в Принстонском университете, я слышал байку, что на математическом факультете не было никого достаточно квалифицированного для оценки его диссертации на тему «Теория нейроаналоговых систем подкрепления и ее применение к проблеме модели мозга», поэтому они отправили ее математикам в Институт перспективных исследований в Принстоне, члены которого, по слухам, говорили с Богом. Ответ пришел такой: «Если сегодня это не математика, то когда-нибудь ею будет», что оказалось достаточно для присуждения Минскому докторской степени. Нейронные сети действительно стали новым классом математических функций, которые стимулируют исследования и становятся новой отраслью математики. Марвин Минский опередил свое время.

Назад: Дело против А. Н. Хомского
Дальше: Шаги

ThomasBap
панно }
adjunty
4 azithromycin pills where to buy zithromax over the counter azithromycin capsules 250mg