Глава 21
ИИ против четырехлеток
Элисон Гопник
психолог и специалист по развитию в Калифорнийском университете в Беркли; среди ее книг нужно упомянуть «Философствующего ребенка» и недавнюю работу «Садовник и плотник: что новая наука о развитии ребенка говорит об отношениях между родителями и детьми».
Элисон Гопник – международно признанный авторитет в области обучения и развития детей, одна из ключевых фигур «теории разума». Она видит в детском мозге «мощный обучаемый компьютер», отталкиваясь, возможно, от личного опыта. Ее собственное детство в Филадельфии было этаким непрерывным упражнением в интеллектуальном развитии. «Другие семьи водили своих детей смотреть «Звуки музыки» или «Карусель», а мы ходили на «Федру» Расина и «Конец игры» Сэмюела Беккета, – вспоминает она. – Наша семья читала вслух роман XVIII столетия, «Джозеф Эндрюс» Генри Филдинга, у костра в походах».
Недавно Элисон обратилась к байесовским моделям машинного обучения, чтобы объяснить замечательную способность дошкольников делать выводы об окружающем их мире без использования огромных массивов данных. «Думаю, младенцы и младшие дети на самом деле более сознательны, чем мы, взрослые, – говорит она. – Они очень хорошо впитывают обилие информации из множества разных источников одновременно». Элисон называет младенцев и младших детей «отделом исследований и разработок рода человеческого». Это вовсе не значит, что она относится к ним равнодушно, как если бы дети были лабораторными животными. Наоборот, малышам как будто нравится ее компания (и множество жужжащих и сверкающих игрушек) в лаборатории в Беркли. Приведу маленькую подробность: много лет после того, как ее собственные дети повзрослели, она держала в своем кабинете детский манеж.
Исследования наших способов учиться и выявление параллелей с методами глубинного обучения ИИ продолжаются. «Оказывается, гораздо проще имитировать рассуждения высококвалифицированного взрослого эксперта, чем обычное обучение нормального ребенка, – говорит Элисон. – Вычисления по-прежнему являются наилучшим – по сути, единственным – научным объяснением того, как физический объект, подобный мозгу, обретает возможность действовать разумно. Но по крайней мере на данный момент мы почти не имеем представления о том, откуда берется креативность, наблюдаемая у детей».
Все слышали о новых достижениях в области искусственного интеллекта, прежде всего в машинном обучении. Наверняка вам доводилось и внимать утопическим или апокалиптическим прогнозам по поводу этих достижений. Утверждается, что ИИ либо сулит нам бессмертие, либо предвещает конец света, и в пользу той и другой версии сказано и написано очень много. Впрочем, даже самые совершенные нынешние ИИ по-прежнему далеки от того, чтобы справляться с задачами, которые без труда решают четырехлетние дети. Несмотря на свое громкое название, искусственный интеллект в основном опирается на методы выявления статистических закономерностей в больших наборах данных. Люди же способны достичь куда большего.
Почему мы так много знаем о мире вокруг? Мы усваиваем огромное количество информации даже в раннем детстве; уже четырехлетние дети знают о растениях, животных и машинах, о желаниях, убеждениях и эмоциях, в конце концов, о динозаврах и космических кораблях.
Наука изрядно расширила наши знания о мироздании – невообразимо большом и бесконечно малом, – мы добрались до пределов Вселенной и начала времен. Мы используем эти знания, чтобы составлять новые классификации и делать новые прогнозы, воображать новые возможности и привносить новизну в этот мир. Но ведь наше восприятие формируется потоками фотонов, бомбардирующими сетчатку, и колебаниями воздуха, воздействующими на барабанные перепонки. Так каким образом мы узнаем столько полезного о мире вокруг, если способы его познания настолько ограничены? И каким образом связаны с познанием несколько фунтов серой слизи в нашей голове, прямо за глазами?
Наилучший ответ на данный момент состоит в том, что наш мозг выполняет вычисления, обрабатывая конкретные, специфические и неупорядоченные данные от наши органов чувств; именно эти вычисления дают нам относительно точное представление о мире. Репрезентации кажутся структурированными, абстрактными и организованными по иерархическому принципу; они включают в себя восприятие трехмерных объектов, грамматику, лежащую в основе языка, и ментальные способности, скажем, «теорию разума», позволяющие понимать мысли и побуждения других людей. Эти репрезентации дают возможность выдвигать разнообразные прогнозы и воображать различные варианты развития событий уникальным, сугубо человеческим и творческим образом.
Такое познание нельзя назвать единственной разновидностью интеллекта, но оно принципиально важно для людей. Причем такой интеллект характерен для маленьких детей. Пусть дети чрезвычайно плохо планируют и принимают решения, зато они – лучшие ученики («усваиватели знаний») во Вселенной. По большей части процесс превращения данных в теории завершается до нашего пятого дня рождения.
Со времен Аристотеля и Платона известны два основных подхода к выяснению того, как мы приобретаем знания, и эти подходы по-прежнему актуальны – и используются в машинном обучении. Аристотель исходил из убеждения, что действовать нужно снизу вверх: начинаем с ощущений – потока фотонов и колебаний воздуха (или пикселей и образцов звука для цифровых изображений и аудиозаписей) – и пытаемся вывести из них некие шаблоны. Этот подход развивали такие классики ассоциаций (ассоциативисты), как философы Давид Юм и Джон Стюарт Милль, а также психологи-бихевиористы Иван Павлов и Б. Ф. Скиннер. С этой точки зрения абстрактность и иерархическая структура репрезентаций оказываются чем-то наподобие иллюзии, в лучшем случае – эпифеноменом. Все происходит через ассоциации и обнаружение шаблонов, особенно при условии обилия данных.
С течением времени в изучении тайн познания стали наблюдаться метания между подходом «снизу вверх» и его альтернативой, методом «сверху вниз», предложенным Платоном. Возможно, мы извлекаем абстрактные знания из конкретных данных, поскольку нам уже известно многое, в первую очередь потому, что мы уже – от природы и благодаря эволюции – обладаем множеством базовых абстрактных концепций. Подобно ученым, мы можем использовать эти понятия для формулирования гипотез о мире. Затем, не пытаясь выводить шаблоны из необработанных данных, мы можем делать предположения относительно того, каковы должны быть эти данные, если указанные гипотезы верны. Наряду с Платоном такой подход отстаивали «рационалистические» философы и психологи, скажем, Декарт и Ноам Хомский.
Вот пример из повседневной жизни, иллюстрирующий разницу между двумя подходами. Возьмем проблему спама. Данные представляют собой длинный несортированный список сообщений в почтовом ящике. Очевидно, что часть этих сообщений содержательны, тогда как остальные суть откровенный спам. Как можно отличить одни от других на основании имеющихся данных?
Рассмотрим сначала подход «снизу вверх». Вы замечаете, что спам-сообщения, как правило, имеют определенные особенности: у них множество адресатов, они приходят будто бы из Нигерии, обещают призы в миллион долларов или рекламируют виагру. Проблема в том, что и содержательные сообщения могут соответствовать этим признакам. Если изучить достаточное количество образцов спама и обыкновенных писем, мы увидим, что дело не только в отдельных признаках, но и в том, что эти признаки, как правило, комбинируются (письмо из Нигерии с посулом миллиона долларов – это спам). Фактически же могут обнаружится некие высокоуровневые корреляции, отличающие спам-сообщения от содержательных – допустим, определенная схема орфографических ошибок или группировка IP-адресов. Выявление таких шаблонов позволяет отфильтровывать спам.
Подход «снизу вверх» в машинном обучении работает именно так. Ученику предлагаются миллионы образцов, каждый с определенным набором признаков и помеченный как спам (или как-то иначе). Компьютер далее может составить общее правило выявления спама, отталкиваясь от сколь угодно малых отличий.
Но что насчет подхода «сверху вниз»? Я получаю электронное письмо от редактора «Журнала клинической биологии». Там ссылаются на одну из моих предыдущих статей и сообщают, что хотели бы опубликовать новую статью моего авторства. Как видим, ни Нигерии, ни виагры, ни миллиона долларов; письмо не содержит никаких «внешних» признаков спама. Но, используя знания, которыми я располагаю, и абстрактно размышляя о процессе порождения спама, я могу счесть это письмо подозрительным.
Во-первых, мне известно, что спамеры пытаются выманивать у людей деньги, уповая на человеческую алчность.
Во-вторых, мне известно, что легально зарегистрированные журналы «открытого доступа» сегодня практикуют покрытие расходов за счет платы за публикации (с авторов, а не с подписчиков); вдобавок я не занимаюсь клинической биологией ни в каком виде.
Все вместе позволяет мне выдвинуть гипотезу о происхождении и сути этого письма. Его рассылают, чтобы побудить ученых платить за публикации в сомнительных журналах. То есть передо мной тот же самый откровенный спам, пусть даже он лишен внешних признаков спама. Я могу сделать такой вывод лишь на основании одного образца, и при этом ничто не мешает мне продолжить проверку моей гипотезы, скажем, погуглить упомянутого «редактора» журнала.
В компьютерных терминах я начала с «генеративной модели», включающей абстрактные понятия, такие как алчность и обман, и описала процесс, подразумевающий мошенничество посредством электронной почты. Это описание дает возможность обнаруживать классический «нигерийский» спам, а также выявлять многие другие разновидности спама. Когда же приходит электронное письмо из журнала, разворачивается обратный процесс: «Это письмо, похоже, того типа, который, скорее всего, будет спамом».
Новая шумиха вокруг ИИ связана с тем, что исследователи искусственного интеллекта недавно разработали эффективные версии обоих методик познания. Но в самих методиках нет ничего нового.
Глубинное обучение снизу вверх
В 1980-х годах ученые-компьютерщики придумали оригинальный способ научить компьютеры выявлять закономерности в данных: речь о коннекционистской, или нейросетевой архитектуре (определение «нейро» до сих пор следует трактовать как метафору). В 1990-х годах все как будто успокоилось, но сравнительно недавно этот подход реанимировали – благодаря методикам глубинного обучения наподобие Google DeepMind.
Например, можно задать программе глубинного обучения набор изображений в категории «кошка», другой набор в категории «дом» и т. д. Программа может обнаружить признаки различения двух наборов изображений и использовать эту информацию для правильной классификации новых картинок. Особая техника машинного обучения, так называемое обучение без учителя, предусматривает выявление закономерностей в массивах данных без каких-либо категорий: машина просто ищет группы признаков (ученые в таких случаях говорят о факторном анализе). При глубинном обучении эти процедуры воспроизводятся на разных уровнях. Отдельные программы способны даже обнаруживать релевантные признаки в необработанных данных (пиксели и звуки); компьютер может начать с выявления в необработанных изображениях шаблонов, соответствующих углам и линиям, а затем искать в этих шаблонах другие, соответствующие граням, и т. д.
Другой пример подхода «снизу вверх», имеющий длинную историю – это обучение с подкреплением. В 1950-х годах Б. Ф. Скиннер, отталкиваясь от исследований Джона Уотсона, сумел, как хорошо известно, «запрограммировать» голубей на выполнение сложных действий – скажем, сопровождать ракеты «воздух – земля» до цели (чем ни военное применение ИИ?) – благодаря тщательно проработанной схеме поощрений и наказаний. Его базовая идея заключалась в том, что поощряемые действия будут повторяться и далее, тогда как караемых действий станут избегать, и в итоге это приведет к формированию желаемого поведения. Даже во времена Скиннера понимали, что регулярное повторение элементарных процессов может обеспечить комплексное поведение. Компьютеры предназначены для многократного выполнения простых операций в масштабах, непредставимых для человеческого воображения, и таким вот образом вычислительные системы могут обучиться поразительно сложным навыкам.
К примеру, исследователи проекта Google DeepMind использовали комбинацию глубинного обучения и обучения с подкреплением, чтобы научить компьютер играть в видеоигры для «Атари». Машина ничего не знала об этих играх. Она действовала случайным образом, фиксируя картинку на экране в конкретный момент времени и оценивая количество набранных очков. Глубинное обучение помогало интерпретировать изображения на экране, а обучение с подкреплением вознаграждало систему за набранные баллы. В итоге компьютер научился очень хорошо играть в некоторые игры, но полностью провалился в освоении других, хотя люди без труда осваивали как первые, так и вторые.
Подобная комбинация глубинного обучения и обучения с подкреплением позволила добиться успеха в проекте AlphaZero компании DeepMind: эта программа сумела взять верх над игроками людьми как в шахматах, так и в го, располагая лишь базовыми знаниями правил и некоторыми способностями к планированию. У AlphaZero имеется еще одна любопытная особенность: программа обучается, разыгрывая сотни миллионов партий сама с собой. При этом она вычленяет ошибки, ведущие к поражениям, и повторяет и совершенствует тактики, ведущие к победам. Такие системы, наряду с теми, которые опираются на так называемые генеративные состязательные сети, одновременно анализируют и порождают данные.
Когда в вашем распоряжении вычислительные мощности для применения этих методик к чрезвычайно большим массивам данных или миллионам сообщений электронной почты, изображений в Инстаграм или голосовых записей, можно решать задачи, прежде казавшиеся непреодолимо сложными. Отсюда и нынешний азарт, обуревающий исследователей. Но стоит помнить, что эти задачи – скажем, узнавание кошки на картинке или произнесение слова «Сири» – тривиальны для маленького ребенка. Одно из наиболее интересных открытий в области компьютерных наук состоит в том, что задачи, простые для нас (то же узнавание кошек), затруднительны для компьютеров; последние справляются с ними намного хуже, чем с освоением шахмат или го. Компьютерам требуются миллионы образцов для классификации объектов, которые мы можем классифицировать на основании всего нескольких примеров. Эти системы, основанные на принципе «снизу вверх», могут обобщать новые образцы и довольно уверенно распознать новое изображение как изображение кошки. Но они добиваются этого результата совершенно иными способами, чем люди. Некоторые изображения, почти идентичные изображению кошки, мы с вами вообще не признаем за изображения кошек, тогда как другие – этакие скопления пятен и смутные образы – сочтем релевантными.
Байесовские модели по принципу «сверху вниз»
Подход «сверху вниз» активно применялся на ранних этапах изучения искусственного интеллекта, а в 2000-х годах случилось его возрождение – в форме вероятностных, или байесовских, генеративных моделей.
Первые попытки использовать этот подход выявили две существенные проблемы. Во-первых, для большинства шаблонов данных возможно в принципе дать самые разные объяснения: не исключено, что полученное мною электронное письмо из журнала является подлинным, просто оно попало ко мне по ошибке. Во-вторых, откуда вообще берутся концепции, используемые в генеративных моделях? Платон и Н. Хомский уверяли, что мы рождаемся с этими концепциями. Но как тогда объяснить изучение и усвоение новейших идей науки? Или даже понимание маленькими детьми того, кто такие динозавры и что такое космический корабль?
Байесовские модели сочетают в себе генеративные принципы и проверку гипотез по теории вероятности; тем самым они решают указанные проблемы. Байесовская модель позволяет рассчитать вероятность истинности конкретной гипотезы при таких-то и таких-то данных. Систематически внося небольшие изменения в модели, которые уже разработаны, и проверяя их на новых данных, мы порой можем создавать новые концепции и модели на основании старых. Увы, эти преимущества нивелируются иными проблемами. Байесовские методы могут помочь в выборе наиболее вероятной из двух гипотез, но почти всегда количество потенциальных гипотез едва ли не бесконечно, и ни одна система не в состоянии эффективно перебрать все. Как определить, какие гипотезы подлежат проверке в первую очередь?
Бренден Лэйк из Нью-Йоркского университета и его коллеги использовали эту методику обучения «снизу вверх» для решения другой задачи, простой для людей, но чрезвычайно сложной для компьютеров: речь о распознавании незнакомых рукописных символов. Посмотрите на символ японского текста. Даже если вы никогда не видели этот символ раньше, вполне вероятно, что вы сможете соотнести его с прочими японскими иероглифами (похож он или отличается). Не составит особого труда его нарисовать и даже «спроектировать» поддельный символ, ориентируясь на иероглиф, который мы видим, причем он заведомо будет отличаться от корейского иероглифа или русской буквы .
Метод распознавания рукописных символов «снизу вверх» состоит в том, чтобы дать компьютеру тысячи примеров каждого символа и позволить ему выявить их характерные особенности. Вместо этого Лэйк с коллегами предложили программе общую модель рисования символов: штрих проводится вправо или влево; после завершения одного рисуется другой; и т. д. Когда программа сталкивалась с конкретным символом, она могла вывести последовательность наиболее вероятных штрихов-«элементов» (точно так же я предположила, что «элементы» спама характеризуют письмо от журнала как сомнительное). Далее она делала вывод, является ли новый символ результатом той или этой последовательности штрихов, и могла сама рисовать аналогичную последовательность. Программа работала намного лучше, чем программа глубинного обучения на основании тех же данных, и во многом воспроизводила действия людей.
Эти два подхода к машинному обучению взаимно дополняют друг друга; у каждого имеются сильные и слабые стороны. При подходе «снизу вверх» программе не нужен большой объем исходных знаний, зато ей требуется немало данных, а ее возможности к обобщению ограниченны. При подходе «сверху вниз» программа может обучаться на малом количестве образцов и делать гораздо более широкие и разнообразные обобщения, но придется исходно заложить в нее гораздо больше знаний. В настоящее время отдельные исследователи пытаются объединить оба подхода, применяя глубинное обучение для реализации байесовского вывода.
Недавние достижения в области ИИ отчасти связаны с возрождением и переосмыслением старых идей. Но в гораздо большей степени они обязаны тому факту, что благодаря интернету у нас появилось намного больше данных, а благодаря закону Мура мы располагаем избытком вычислительных мощностей для обработки этих данных. Более того, мало кто обращает внимание на то обстоятельство, что имеющиеся в нашем распоряжении данные уже отсортированы и обработаны – людьми. Изображения кошек в интернете представляют собой «канонические» изображения кошек – то есть такие, которые люди признали «правильными». Сервис перевода Google Translate эффективен потому, что в нем используются миллионы человеческих переводов, которые он обобщает при работе с новыми текстами (для этого ему вовсе не нужно по-настоящему понимать сами предложения).
В наших детях поистине поразительно их умение каким-то образом сочетать в своем поведении лучшие качества обоих описанных подходов – и позднее выходить далеко за пределы этих подходов. В последние пятнадцать лет специалисты по развитию прилежно изучали способы, которыми дети усваивают структуру данных. Четырехлетние дети способны учиться всего на одном или двух примерах, как машинная система по принципу «сверху вниз», и обобщать различные понятия. А еще они могут изучать новые идеи и модели на основе самих данных, как делает машинная система по принципу «снизу вверх».
Например, в нашей лаборатории мы даем маленьким детям «детектор бликетов»: это новое устройство, ничего подобного они раньше не видели. Это коробка, которая начинает мерцать огнями и проигрывать музыку, когда в нее кладут какие-то предметы (но не любые, а конкретного типа). Мы даем детям лишь один или два примера того, как работает машина, показываем, что она реагирует, скажем, на два красных кубика, но не на сочетание зеленого и желтого кубиков. Даже полуторагодовалые малыши мгновенно улавливают основополагающий принцип (два предмета должны быть одинаковыми, чтобы устройство сработало) и обобщают этот принцип, когда сталкиваются с чем-то новым; к примеру, они выберут два предмета одинаковой формы, чтобы машина сработала. В других экспериментах мы убедились, что дети способны даже осознать некие незримые свойства машины и понять, что машина работает по какому-то абстрактному логическому принципу.
Все это проявляется и в повседневном обучении детей. Маленькие дети быстро осваивают абстрактные «интуитивные» теории биологии, физики и психологии, во многом воспроизводя методики взрослых ученых и при относительно небольшом объеме исходных данных.
Замечательные достижения в области машинного обучения в современных системах ИИ, будь то на принципе «снизу вверх» или «сверху вниз», относятся к узкому и четко определенному пространству гипотез и концепций – речь о строго описанном наборе игровых фигур и ходов и заранее заданном наборе изображений. А вот дети, как и ученые, порой меняют свои воззрения радикальным образом (налицо смена парадигмы), а не просто модифицируют ранее усвоенные концепции.
Четырехлетние дети сразу узнают кошек и понимают слова, а также способны к творческим, поистине удивительным новым выводам, которые выходят далеко за рамки их опыта. Мой собственный внук недавно объяснил, например, что, если взрослому захочется снова стать ребенком, ему не нужно есть никаких полезных овощей, так как именно полезные овощи заставляют ребенка взрослеть. Такого рода гипотезы, в правдоподобность которых не поверит ни один взрослый, характерны для детей младшего возраста. Фактически нам с коллегами удалось доказать, что дошкольники придут к маловероятным гипотезам скорее, чем дети старшего возраста и взрослые. Откуда берется этот способ творческого обучения и инноваций – можно лишь догадываться.
Однако анализ детского поведения может пригодиться программистам, обучающим компьютеры. Две особенности детского познания особенно поразительны. Дети учатся активно, а не просто пассивно усваивают данные, как ИИ. Ученые ставят эксперименты, а дети стремятся извлекать информацию из окружающего мира посредством бесконечных игр и вопросов. Недавние исследования показали, что такая практика на самом деле систематизирована, структурирована и хорошо адаптирована для поиска убедительных доказательств в поддержку формирования гипотез и выбора теорий. Наделение машин любознательностью и предоставление им возможности активно взаимодействовать с миром может оказаться полезным подспорьем для организации более реалистического, более полноценного обучения.
Во-вторых, дети, в отличие от существующих ИИ, учатся в социальной среде и в контексте культуры. Люди не обучаются изолированно, они пользуются накопленной мудростью прошлых поколений. Недавние исследования показали, что даже дошкольники учатся через подражание и наглядные примеры других людей. При этом они не просто пассивно внимают учителям. Нет, они воспринимают информацию удивительно тонким, «чувствительным» образом, делая сложные выводы о том, откуда она поступает и насколько заслуживает доверия, а также систематически интегрируют собственный опыт с тем, что им довелось услышать .
Выражения «искусственный интеллект» и «машинное обучение» звучат пугающе. В некоторых отношениях мы беспокоимся обоснованно. Эти системы используются, например, для управления оружием, и это чревато серьезными проблемами. Тем не менее глупость «от природы» может нанести гораздо больший урон, нежели искусственный интеллект; мы, люди, должны стать намного умнее, чем были в прошлом, чтобы должным образом контролировать и регулировать новые технологии. Но у общества нет веских причин для апокалиптического (или утопического) отношения к ИИ, который якобы заменит людей. Во всяком случае, пока мы не преодолеем основной парадокс обучения – что лучший нынешний искусственный интеллект не в состоянии конкурировать с обычным четырехлетним ребенком.