Внедрение глубокого обучения крупнейшими в мире технологическими компаниями наряду с появлением все более мощных компьютеров и приложений для бизнеса, использующих возможности нейронных сетей, почти не оставляет сомнений, что эта технология прочно вошла в нашу жизнь. Ясно, однако, что текущий темп развития поддерживать сложно и что будущие достижения требуют принципиальных инноваций. Как мы увидим, одним из самых важных в дальнейшем станет вопрос о том, не качнется ли маятник разработки ИИ назад, к символическому подходу и, если это случится, что нужно сделать для его успешного объединения с нейронными сетями. Прежде чем погрузиться в исследование будущего искусственного интеллекта, давайте чуть более предметно познакомимся с принципами глубокого обучения и с обучением этих сетей решению определенных задач.
В СМИ системы глубокого обучения часто называют «похожими на головной мозг», из-за чего можно легко прийти к ошибочному представлению о сходстве нейронных сетей, применяемых в искусственном интеллекте, с их биологическим образцом. Мозг человека, пожалуй, самая сложная система в известной Вселенной, имеющая около 100 млрд нейронов и сотни триллионов связей. Однако ошеломляющий уровень сложности связан не просто с огромным количеством связей. Он обусловлен работой самих нейронов и тем, как они передают сигналы и адаптируются к новой информации с течением времени.
У биологического нейрона различают три части: тело клетки, где находится ядро, многочисленные отростки — дендриты, принимающие входящие электрические сигналы, и один намного более длинный и тонкий отросток, так называемый аксон, по которому нейрон передает выходной сигнал другим нейронам. И дендриты, и аксон обычно сильно разветвлены, так что дендриты порой принимают возбуждающие сигналы от десятков тысяч других нейронов. Когда совокупность сигналов, поступающих через дендриты, возбуждает нейрон, он генерирует выходной электрический сигнал — так называемый потенциал действия. Однако связи в головном мозге — это не сеть электрических цепей. Аксон одного нейрона передает химический сигнал дендриту другого через особое соединение — синапс. Эти электрохимические взаимодействия играют принципиальную роль в работе мозга и его способности учиться и приспосабливаться, но во многих случаях не до конца понятны. Взять хотя бы механизм действия нейромедиатора дофамина, вещества, связанного с удовольствием или вознаграждением.
Искусственная нейронная сеть отбрасывает почти все эти детали и пытается создать грубое математическое подобие работы и связей нейронов. Если уподобить головной мозг Моне Лизе, то структуры, используемые в системах глубокого обучения, будут в лучшем случае чем-то вроде Люси из Peanuts. Основной план построения искусственных нейронов появился еще в 1940-х годах, и в последующие десятилетия работа над этими системами по большей части была отделена от нейрологии. Алгоритмы для систем глубокого обучения разрабатывались независимо, часто экспериментальным путем и без стремления моделировать процессы, которые могут реально происходить в мозге человека.
Чтобы визуализировать искусственный нейрон, представьте себе контейнер, в который входят три или больше трубок, подводящих воду. Эти трубки можно уподобить дендритам биологического нейрона. Имеется также трубка аксона для выходящего потока воды. Если уровень воды, поступающей по входным трубкам, достигает определенной отметки, нейрон возбуждается и выбрасывает исходящий поток через трубку-аксон.
Ключевой элемент, превращающий такую конструкцию в полезное вычислительное устройство, — это клапан, встроенный в каждую из входящих трубок, который позволяет управлять поступлением воды. Манипулируя клапанами, можно напрямую регулировать влияние одного нейрона на другой. Процесс обучения нейронной сети решению полезных задач, в сущности, состоит в настройке этих клапанов, так называемых весов, таким образом, чтобы система могла правильно идентифицировать образы.
В глубокой нейронной сети программное моделирование искусственных нейронов, действующих более-менее похоже на такие контейнеры, организовано в нескольких слоях, так чтобы выходной сигнал одного слоя нейронов соединялся с входом следующего слоя. Часто связи между нейронами в соседних слоях устанавливаются случайным образом; напротив, в конкретной нейронной архитектуре, например в сверточной сети для распознавания образов, нейроны соединяются упорядоченно. Сложные нейронные сети могут содержать больше 100 слоев и миллионы искусственных нейронов.
Когда такая сеть построена, ее можно научить выполнять определенные задания, такие как распознавание образов или языковой перевод. Например, чтобы научить нейронную сеть распознавать рукописные цифры, пиксели фотографии написанной цифры должны стать входными сигналами для первого слоя нейронов. Ответ, или, иначе говоря, символ, соответствующий написанной от руки цифре, должен поступить в форме выходных сигналов последнего слоя искусственных нейронов. Обучение сети — это процесс ввода в нее обучающих образцов с последующей подстройкой всех весов в сети с тем, чтобы она постепенно пришла к правильному ответу. После того как веса оптимизированы, сеть можно использовать для обработки новых образцов, не входящих в обучающий комплекс изображений.
Именно при настройке весов таким образом, чтобы сеть в конечном счете могла почти всегда выдавать верный ответ, вступает в действие знаменитый алгоритм обратного распространения. В сложной системе глубокого обучения может насчитываться миллиард и больше связей между нейронами, каждая из которых имеет вес, подлежащий оптимизации. По существу, обратное распространение позволяет настраивать все веса сети одновременно, а не по очереди, что чрезвычайно повышает эффективность вычислений. В процессе обучения выходной сигнал сети сравнивается с правильным ответом и информация, позволяющая соответствующим образом настроить каждый вес, передается обратно через слои нейронов. Без механизма обратного распространения революция в области глубокого обучения была бы невозможна.
Все вышесказанное описывает базовый механизм формирования и обучения нейронной сети с тем, чтобы она могла давать полезные результаты. Остается, однако, без ответа принципиальный вопрос: что именно происходит в системе, когда она «переваривает» данные и выдает ответы — подчас с недоступной человеку точностью?
Вот короткое объяснение: в нейронной сети создается представление знания и уровень абстракции для этого знания растет в каждом следующем ее слое. Это легче всего понять на примере сетей, предназначенных для распознавания визуальных образов. Восприятие образа сетью начинается на уровне пикселей. В последующих нейронных слоях распознаются такие характеристики изображения, как углы, кривые и фактуры. Далее в системе возникают еще более сложные представления. В конце концов понимание образа системой становится настолько полным, что она полностью воспринимает содержание изображения и может его идентифицировать — даже при огромном количестве альтернатив.
Однако если подойти к вопросу шире, то мы на самом деле не знаем, что именно там происходит, по крайней мере это очень трудно описать. Ни один программист не задает уровни абстракции или способ представления знания в сети. Все это происходит само собой, и представление об объекте распределено между миллионами взаимосвязанных искусственных нейронов, активизирующихся в системе. Мы знаем, что сеть в определенном смысле постигает изображение, но очень трудно или даже невозможно точно описать, что именно формируется в ее нейронах, особенно в более глубоких слоях сети или в системах, работающих с плохо поддающимися визуализации типами данных. Эта относительная непрозрачность, а вместе с ней опасение, что глубокие нейросети фактически представляют собой «черные ящики», — одна из главных причин обеспокоенности, к которой мы вернемся в главе 8.
Подавляющее большинство систем глубокого обучения натаскивают на решение полезных задач путем представления обширного набора данных, тщательно размеченных или классифицированных. Например, глубокую нейронную сеть можно научить правильно идентифицировать животных на фотографиях, если продемонстрировать ей тысячи или даже миллионы изображений, на каждом из которых имеется правильное название животного. Такая процедура, так называемое контролируемое обучение, может занимать многие часы даже при использовании очень производительного оборудования.
Подобный подход используется, пожалуй, в 95% случаев практического машинного обучения. На его основе работают ИИ-системы расшифровки рентгеновских снимков (обученные на гигантском количестве медицинских снимков, разбитых на категории «рак» и «не рак»), языкового перевода (обученные на миллионах документов, заранее переведенных на разные языки) и почти бесконечное множество других приложений, осуществляющих, по существу, сравнение и классификацию разных форм информации. Контролируемое обучение обычно требует огромного количества размеченных данных, но результаты бывают очень впечатляющими — системы обретают сверхчеловеческую способность распознавать образы. Через пять лет после состязания ImageNet 2012 года алгоритмы распознавания образов стали насколько эффективными, что конкурс был переориентирован на задачу распознавания трехмерных объектов из реального мира.
В случаях, когда для разметки всех данных требуется интерпретация, на которую способен только человек, как, например, при присоединении описаний к фотографиям, процесс становится дорогостоящим и громоздким. Одним из решений является подход, использованный Фей-Фей Ли для комплекса данных ImageNet, — обращение к краудсорсингу. Такие платформы, как Mechanical Turk, позволяют платить распределенной команде людей гроши за выполнение подобной работы. Стремление упростить этот процесс привело к появлению ряда стартапов, занимающихся поиском эффективных способов разметки данных при подготовке к контролируемому обучению. Точная разметка данных из огромных баз имеет принципиальное значение, особенно для случаев распознавания визуальной информации. Об этом убедительно свидетельствует стремительный взлет компании Scale AI, которую основал в 2016 году отчисленный из МТИ 19-летний Александр Ван. Scale AI заключает краудсорсинговые договоры с более чем 30 000 исполнителей, которые размечают данные для ее клиентов, включая Uber, Airbnb и Waymo, отделение беспилотных автомобилей холдинга Alphabet. Компания привлекла более $100 млн венчурных инвестиций и теперь считается «единорогом» Кремниевой долины — стартапом стоимостью более $1 млрд.
Однако нередко почти непостижимые по объему массивы прекрасно размеченных данных появляются чуть ли не сами собой и практически бесплатно для поддерживающих их компаний. Массированные потоки данных, генерируемых такими платформами, как Facebook, Google или Twitter, ценны в значительной степени потому, что они тщательно размечены пользователями. Ставя «лайк» или делая «ретвит», просматривая веб-страницу или видео, а если брать в целом — совершая любое действие в сети, вы фактически маркируете конкретное изображение или фрагмент данных. Вместе с миллионами других пользователей одной из крупнейших платформ вы, по сути, заменяете работников, привлеченных на основе краудсорсинга такими компаниями, как Scale AI. Неслучайно самые масштабные программы изучения ИИ связаны с крупными интернет-компаниями. Синергия искусственного интеллекта и гигантских массивов данных отмечается часто, но важнейшим фактором, лежащим в основе этого симбиоза, является наличие механизма дешевой или бесплатной разметки всех этих данных, которые затем можно «скормить» мощной нейросети в режиме контролируемого обучения.
Несмотря на господство контролируемого обучения, в некоторых случаях используется другой метод — «обучение с подкреплением». Он создает компетенцию посредством многократно повторяющейся практики или путем проб и ошибок. Когда наконец алгоритм решает поставленную задачу, он получает цифровое поощрение. В сущности, так дрессируют собак. Сначала поведение животного может быть случайным, но когда оно садится в ответ на соответствующую команду, то получает вознаграждение. Повторяйте этот процесс достаточно долго, и собака научится безошибочно садиться по команде.
Лидером в области обучения с подкреплением является лондонская компания DeepMind, в настоящее время принадлежащая Alphabet, материнской компании Google. DeepMind вложила огромные средства в исследование этого метода применительно к мощным сверточным нейросетям и создала то, что она называет «глубоким обучением с подкреплением». Вскоре после своего основания в 2010 году DeepMind занялась разработкой обучаемых методом подкрепления ИИ-систем, которые способны играть в видеоигры. В январе 2013 года она объявила, что создала систему DQN, которая умеет играть в классические игры Atari, в том числе Space Invaders, Pong и Breakout. Система DeepMind смогла самообучиться игре, используя в качестве входного сигнала только необработанные пиксели и счет в игре. Отточив свой метод на многих тысячах смоделированных игр, DQN получила в шести играх самые высокие результаты для компьютеров, а в трех смогла победить лучших профессиональных игроков. К 2015 году система покорила 49 игр Atari, и DeepMind заявила, что создала первую ИИ-систему, устраняющую «разрыв между сенсорными данными высокой размерности и действиями» и что DQN «способна достигать совершенства в выполнении самых разных сложных задач». Эти достижения привлекли внимание титанов Кремниевой долины, прежде всего основателя Google Ларри Пейджа, и в 2014 году Google перебила конкурирующее предложение Facebook и купила DeepMind за $400 млн.
Самого впечатляющего успеха в использовании глубокого обучения с подкреплением удалось добиться в марте 2016 года, когда AlphaGo, система, разработанная DeepMind для игры в древнюю игру го, нанесла поражение Ли Седолю, в то время одному из сильнейших в мире игроков, в турнире из пяти игр в Сеуле. Мастерское владение го очень высоко почитается в Азии, где в эту игру играют несколько тысячелетий. Она упоминается в текстах Конфуция, а ее корни, вероятно, уходят в глубь времен, к истокам китайской цивилизации. Согласно одной теории, го было изобретено во время правления императора Яо ранее 2000 года до нашей эры. Го наряду с каллиграфией, живописью и игрой на струнном музыкальном инструменте считалось одним из четырех главных искусств, которыми должен был владеть древнекитайский ученый.
В отличие от шахмат, го настолько сложная игра, что алгоритмы полного перебора ходов в ней бессильны. В ходе игры доска, расчерченная сеткой размерностью 19×19, почти целиком заполняется черными и белыми фишками — так называемыми камнями. Как любит подчеркивать гендиректор DeepMind Демис Хассабис, рассуждая о достижении AlphaGo, число возможных комбинаций камней на доске больше предполагаемого количества атомов во Вселенной. Хотя в го играют несколько тысячелетий, вероятность одинакового развития хотя бы двух поединков чрезвычайно (а в действительности исчезающе) мала. Иными словами, любая попытка заглянуть вперед и сделать расчет для всей полноты возможных будущих ходов, как в игре с более жесткими ограничениями, превосходит вычислительные возможности большинства даже самых мощных компьютеров.
Помимо высочайшего уровня сложности очевидно, что игра в го в огромной степени связана со способностью, которую можно назвать человеческой интуицией. Лучшие игроки зачастую теряются, когда их просят объяснить, почему они выбрали ту или иную стратегию, и говорят о «наитии», побудившем их положить камень на определенное место доски. Принято считать, что подобная деятельность выходит за пределы возможностей компьютера, — мы с полным на то основанием считаем ее защищенной от угрозы автоматизации, по крайней мере в обозримом будущем. Тем не менее го поддалась машинам самое меньшее на десятилетие раньше, чем это считали возможным большинство специалистов по компьютерным наукам.
Сначала команда DeepMind методом контролируемого обучения познакомила нейронные сети AlphaGo с 30 млн ходов, выделенных из подробных записей игр с участием лучших игроков. Затем она перешла на обучение с подкреплением, фактически предоставив системе возможность играть с собой. После тысяч смоделированных практических поединков и под постоянным давлением стимула к совершенствованию в виде вознаграждения глубокие нейронные сети AlphaGo постепенно достигли сверхчеловеческой результативности. Триумфальные победы AlphaGo — над Ли Седолем в 2016 году и над игроком с самым высоким в мире рейтингом, Кэ Цзе, год спустя — снова всколыхнули все сообщество исследователей ИИ. Возможно, именно эти достижения вызвали в Китае, как выразился венчурный капиталист и писатель Ли Кайфу, «эффект “Спутника”», вследствие которого власти быстро приняли решение сделать страну лидером в области искусственного интеллекта.
Если контролируемое обучение опирается на гигантские массивы размеченных данных, то для обучения с подкреплением нужно огромное количество практических запусков, большинство которых заканчиваются полным провалом. Обучение с подкреплением особенно подходит для освоения игр, ведь алгоритмы могут быстро просмотреть больше матчей, чем один человек способен сыграть за всю свою жизнь. Этот метод можно применить и к задачам в реальном мире, поддающимся быстрому моделированию. В настоящее время самое важное практическое применение такой метод нашел в обучении систем управления беспилотными автомобилями. Прежде чем автопилоты, используемые в Waymo или Tesla, окажутся в настоящей машине или на дороге, они проходят обучение, в процессе которого постепенно набирают опыт, попадая в тысячи смоделированных катастроф. Когда алгоритм обучен и аварии остались в прошлом, программное обеспечение можно установить на реальные автомобили. Хотя этот процесс в целом эффективен, очевидно, что тинейджеру, которому только исполнилось 16 лет, на курсах по вождению незачем тысячу раз разбиваться в автокатастрофе для получения навыков управления автомобилем. Резкий контраст между обучением машин и человеческого мозга, которому для этого требуется несоизмеримо меньше данных, высвечивает как ограничения сегодняшних ИИ-систем, так и колоссальный потенциал их дальнейшего развития.
Пожалуй, самым захватывающим и важным в плане последствий десятилетием в истории искусственного интеллекта стали 2010-е годы. Помимо принципиального усовершенствования алгоритмов, используемых в ИИ, главным фактором прогресса было создание все более масштабных глубоких нейронных сетей на основе все более быстрых компьютеров, способных поглощать все возрастающие объемы обучающих данных. Стратегия «масштабирования» стала явной после состязания ImageNet в 2012 году, ознаменовавшего революцию в области глубокого обучения. В ноябре того же года передовица The New York Times познакомила с технологией глубокого обучения массового читателя. Статья, написанная репортером Джоном Маркоффом, заканчивалась словами Джеффа Хинтона: «Особенность этого подхода состоит в том, что он прекрасно масштабируется. Фактически его нужно лишь расширять и ускорять, чтобы он стал лучше. Теперь назад дороги нет».
Однако становится все более очевидным, что этот основной двигатель прогресса начинает терять тягу. По оценке исследовательской организации OpenAI, потребности в вычислительных ресурсах, необходимых для передовых проектов в области ИИ, «растут в геометрической прогрессии» и удваиваются примерно каждые 3,4 месяца. В декабре 2019 года в интервью журналу Wired вице-президент Facebook по ИИ Джером Пезенти предположил, что даже для такой богатой компании, как Facebook, финансирование этого процесса в конце концов станет неподъемным.
Если масштабировать глубокое обучение, оно показывает себя лучше и обретает способность решать более широкие задачи. Так что наращивать масштабы выгодно. Очевидно, однако, что поддерживать такой темп развития невозможно. Стоимость ведущих экспериментальных разработок каждый год удесятеряется. Сейчас она может доходить до сумм с семью нулями, но о девяти или десяти нулях речь не идет — это никому не по карману.
Далее Пезенти вынес суровый приговор надеждам на то, что масштабирование останется основным двигателем прогресса: «В какой-то момент мы упремся в стену. Во многих отношениях это уже произошло». Помимо финансовых ограничений масштабирования нейронных сетей существуют еще экологические соображения. Анализ, выполненный в 2019 году исследователями Массачусетского университета в Амхерсте, показал, что обучение очень большой глубокой системы может сопровождаться такими же выбросами углекислого газа, как и у пяти автомобилей за все время их эксплуатации.
Даже если удастся преодолеть финансовую и экологическую проблему, например путем создания намного более эффективных аппаратных и программных средств, масштабирование как стратегия просто может оказаться недостаточным для обеспечения устойчивого прогресса. Неуклонно растущие инвестиции в вычисления привели к появлению невероятно продуктивных систем в узких областях, но становится все очевиднее, что глубокие нейронные сети имеют ограничения, связанные с надежностью, из-за которых эта технология может оказаться непригодной для решения многих прикладных задач в отсутствие значимых концептуальных прорывов. Одна из самых явных слабостей этой технологий проявилась, когда группа исследователей из Vicarious — маленькой компании, разрабатывающей роботов (см. главу 3), — провела анализ нейросети, используемой в системе DQN от DeepMind, которая научилась побеждать в видеоиграх Atari. Один тест был выполнен на игре Breakout, где игрок должен с помощью ракетки отбивать быстро движущийся мяч. Когда ракетка была сдвинута на экране всего на несколько пикселей вверх — человек может даже не заметить этого, сверхчеловеческая результативность системы сразу же испарилась. Программа DeepMind была не способна адаптироваться даже к небольшому изменению. Единственной возможностью возврата высшей результативности было полное переучивание системы с помощью данных, соответствующих новой конфигурации экрана.
Хотя мощные нейронные сети DeepMind и воссоздают образ экрана Breakout, он остается жестко привязанным к простым пикселям даже на более высоких уровнях абстракции в сети. Очевидно, что у системы не возникает понимания ракетки как реального объекта, который можно перемещать. Иными словами, это не имеет ничего общего с человеческим пониманием материальных объектов, представленных пикселями на экране, или физических законов, управляющих их движением. На всех уровнях сети это просто пиксели. Хотя некоторые исследователи ИИ продолжают верить, что более целостное понимание в конце концов возникло бы, если бы сеть имела больше слоев искусственных нейронов, поддерживалась более быстрым компьютером и поглотила еще больше данных, я считаю это крайне маловероятным. Чтобы появились машины, обладающие более человеческим восприятием мира, требуются фундаментальные инновации.
Этот тип проблем, обусловленный негибкостью ИИ-системы и ее неспособностью адаптироваться даже к мелким неожиданным изменениям входных данных, исследователи называют хрупкостью. Хрупкое ИИ-приложение, пожалуй, не такая уж серьезная проблема, если из-за нее складской робот время от времени упаковывает в коробку не тот товар. Однако в других случаях этот технический недостаток может обернуться катастрофой. Именно поэтому, например, реальные достижения в сфере беспилотных автомобилей так далеки от первых восторженных прогнозов.
Все эти ограничения оказались в центре внимания к концу десятилетия, породив серьезные опасения, что данная область исследования снова отрывается от реальности, а хайп задирает ожидания слишком высоко. В отраслевых изданиях и социальных сетях вновь замелькало одно из самых пугающих для разработчиков искусственного интеллекта словосочетаний — «зима искусственного интеллекта». В интервью BBC в январе 2020 года Йошуа Бенджио сказал, что «возможности ИИ были несколько преувеличены… некоторыми компаниями, которым это было выгодно».
В значительной мере эта обеспокоенность связана с тем направлением деятельности, где хайп достиг абсолютного максимума (см. главу 3), — беспилотными автомобилями. Стало ясно, что, вопреки оптимистическим прогнозам начала десятилетия, до настоящих беспилотных транспортных средств, способных функционировать в разнообразных условиях, еще далеко. Такие компании, как Waymo, Uber и Tesla, вывели беспилотные машины на дороги общего назначения, но за исключением нескольких экспериментов с очень серьезными ограничениями в салоне всегда находился водитель, которому, как оказалось, слишком часто приходилось брать управление на себя. Даже при наличии водителя, обязанного контролировать работу автомобиля, происходили аварии со смертельным исходом, бьющие по репутации этого направления. В 2018 году пользователи активно делились постом из блога исследователя в области машинного обучения Филипа Пикневски «Зима ИИ давно наступила». В нем отмечалось, что по данным, запрошенным штатом Калифорния, одна проходящая испытания машина «не могла проехать буквально десятка километров» без отказа системы, вынуждавшего человека принимать на себя управление автомобилем.
На мой взгляд, если действительно близится очередная зима ИИ, она, скорее всего, будет мягкой. Хотя обеспокоенность замедлением прогресса возникла не на пустом месте, бесспорно и то, что в последние годы ИИ был глубоко интегрирован в инфраструктуру и бизнес-модели крупнейших технологических компаний. Эти компании получили существенную отдачу от огромных вложений в вычислительные ресурсы и профессионалов в области ИИ и теперь считают искусственный интеллект обязательным условием своей конкурентоспособности на рынке. Аналогично почти каждый технологический стартап сегодня в той или иной степени вкладывает деньги в ИИ, и компании из других отраслей, как крупные, так и мелкие, начинают пользоваться этой технологией. Успешная интеграция в коммерческую сферу имеет несоизмеримо большее значение, чем любые предсказания зимы ИИ. Вследствие этого данная область пользуется поддержкой огромной армии сторонников из корпоративного мира и имеет импульс развития, который компенсирует замедление.
Кроме того, в определенном смысле крах масштабируемости как главной движущей силы прогресса может иметь и светлую сторону. Когда все вокруг уверены, что можно добиться важных достижений, просто направляя на решение задачи больше вычислительных ресурсов, интерес к вложениям в намного более сложную работу над подлинной инновацией снижается. Пожалуй, именно это произошло с законом Мура. Пока все были абсолютно уверены, что быстродействие компьютеров будет удваиваться каждые два года, производители чипов сосредоточивались на создании все более быстрых вариантов микропроцессоров прежних типов от таких компаний, как Intel и Motorola. В последние годы перспективы увеличения быстродействия компьютеров стали более туманными, размеры цепей в чипах приблизились к размеру атомов, а действие закона Мура в его традиционном понимании подошло к концу. Это заставило инженеров мыслить нешаблонно, что повлекло за собой такие инновации, как программное обеспечение для массово-параллельных вычислений и совершенно новые архитектуры процессоров, многие из которых оптимизированы для глубоких нейросетей. Думаю, мы можем ожидать подобного взрывного возникновения идей в области глубокого обучения и искусственного интеллекта в целом, поскольку простое наращивание масштаба нейронных сетей уже не гарантирует прогресса.
Чтобы преодолеть существующие ограничения систем глубокого обучения, необходимы инновации, которые подведут машинный интеллект несопоставимо ближе к возможностям человеческого мозга. На этом пути стоит много серьезных препятствий, зато в финале нас ждет неизменный «святой Грааль» искусственного интеллекта — машина, способная общаться, мыслить и усваивать новые идеи на уровне человека или выше его. Исследователи часто используют термин «универсальный искусственный интеллект». В реальном мире пока нет ничего близкого к универсальному ИИ, а вот в научной фантастике примеров множество, в том числе HAL из «Космической одиссеи 2001 года», главный компьютер космического корабля Enterprise, и Дейта из «Звездного пути», а также, разумеется, подлинно антиутопические технологии из фильмов «Терминатор» и «Матрица». Можно с уверенностью утверждать, что создание универсального машинного интеллекта со сверхчеловеческими возможностями станет самой важной по своим последствиям инновацией в истории человечества. Такая технология будет наивысшим интеллектуальным инструментом, радикально ускоряющим темпы развития в бесчисленных областях. Эксперты по ИИ сильно расходятся во мнениях о том, сколько времени потребуется на создание универсального ИИ. Одни с оптимизмом ожидают прорыва в ближайшие пять — десять лет. Другие, намного более осторожные, полагают, что на это может потребоваться 100 лет или больше.
Что касается обозримого будущего, то большинство исследователей интересует не столько реальное создание ИИ человеческого уровня, сколько путь к этой цели и многочисленные инновации, которые потребуются для успешного преодоления препятствий на этом пути. Разработка в полной мере мыслящей машины — это не умозрительный научный проект, а своего рода дорожная карта по созданию ИИ-систем, которые преодолеют сегодняшние ограничения и приобретут новые возможности. Движение по этому пути почти гарантированно породит множество практических приложений колоссальной коммерческой и научной ценности.
Именно сочетанием поиска практических инноваций в краткосрочной перспективе с намного более амбициозным стремлением создать машинный интеллект подлинно человеческого уровня характеризуется философия исследования разнообразных команд, работающих над ИИ в Google. Джефф Дин, директор компании по искусственному интеллекту, сказал мне, что если DeepMind, независимая компания, приобретенная Google в 2014 году, занимается поиском путей создания универсального машинного интеллекта по «структурированному плану», то другие исследовательские группы в Google придерживаются «более органического» подхода и заняты задачами, «важность которых мы осознаем, но пока не умеем их решать; когда же мы с ними справимся, то поймем, чем заняться дальше». Все группы по исследованию ИИ в Google, по его словам, «работают совместно, пытаясь создать по-настоящему гибкие ИИ-системы». Лишь время покажет, какой подход эффективнее: четкое планирование сверху вниз или пошаговое исследование неизведанного, но на обоих направлениях вероятно появление новых идей, которые можно будет использовать на практике.
У каждой команды, возглавляющей движение по этим путям, своя философия исследований и преодоления трудностей. Общим для всех них является то, что конечные цели «срисованы» со способностей, характерных для человеческого мышления.
Один из подходов состоит в использовании в качестве образца внутренней организации и работы человеческого головного мозга. Его сторонники считают, что искусственный интеллект должен напрямую обращаться к опыту нейробиологии. Лидером в этой области является DeepMind. Основатель и генеральный директор этой компании Демис Хассабис — что необычно для исследователя ИИ — получил высшее образование в области нейробиологии, а не вычислительной техники и защитил докторскую диссертацию в лондонском Юниверсити-колледже. Хассабис сказал мне, что самая большая группа исследователей в DeepMind состоит из специалистов по нейробиологии, занятых поиском способов применения новейших открытий науки о мозге в создании искусственного интеллекта.
Их задача не детальное копирование работы мозга, а использование базовых принципов его функционирования как отправной точки. Для объяснения этого подхода эксперты в области ИИ часто приводят аналогию с изучением механики полета и последующей разработкой конструкций современных самолетов. Хотя очевидно, что источником вдохновения для создания самолетов послужили птицы, самолеты не машут крыльями и не повторяют напрямую полет птицы. Когда инженеры разобрались в аэродинамике их полета, стало возможно строить машины на основе тех же базовых принципов, но намного более совершенные. Хассабис и команда из DeepMind верят в существование своего рода «аэродинамики интеллекта» — основополагающей теории, описывающей человеческий и, в перспективе, машинный интеллект.
Междисциплинарная команда DeepMind привела несколько убедительных свидетельств того, что подобный общий комплекс принципов действительно может существовать, опубликовав в мае 2018 года результаты своего исследования. Четырьмя годами раньше Нобелевская премия в области физиологии или медицины была вручена трем нейробиологам — Джону О’Кифу, Мэй-Бритт Мозер и Эдварду Мозеру — за открытие особого типа нейрона, обусловливающего ориентацию в пространстве у животных. Эти нервные клетки, названные нейронами решетки, возбуждаются, образуя регулярную гексагональную структуру, в процессе исследования животным пространства. Считается, что нейроны решетки составляют нечто вроде «внутреннего GPS», нейронного представления системы картирования, что позволяет животным ориентироваться в пространстве, прокладывая маршрут в сложном и непредсказуемом окружении.
DeepMind поставила вычислительный эксперимент: исследователи обучили мощную нейронную сеть на данных, моделировавших информацию о движении, которой пользуется животное, разыскивающее еду в темноте. Исследователи с удивлением обнаружили, что структуры, напоминающие нейроны решетки, «спонтанно возникли внутри сети — что поразительно напоминает паттерны активности нейронов, наблюдающиеся у разыскивающих еду млекопитающих». Иными словами, оказалось, что одна и та же базовая навигационная структура сама собой возникает в двух совершенно разных субстратах, биологическом и цифровом. Хассабис сказал мне, что считает это одним из самых поразительных прорывов, совершенных компанией. Похоже, что внутренняя система, использующая нейроны решетки, попросту представляет собой самый эффективный с точки зрения вычислений способ отображения навигационной информации в любой структуре, независимо от того, как именно она реализована. Научная статья DeepMind, описывающая это исследование и опубликованная в журнале Nature, вызвала широкий отклик в сфере нейробиологии. Подобные открытия заставляют предположить, что междисциплинарный подход, которого придерживается эта компания, скорее всего, окажется улицей с двусторонним движением — исследователи ИИ будут не только учиться у мозга, но и способствовать его пониманию.
DeepMind внесла еще один важный вклад в нейробиологию в начале 2020 года, использовав свой опыт в области глубокого обучения для исследования работы дофаминовых нейронов в мозге. Нейробиологи с 1990-х годов стали понимать, что эти особые нейроны предсказывают вероятное вознаграждение за выполнение животным определенного действия. Если реальная награда оказывается больше ожидаемой, то выделяется относительно больше дофамина. Если же результат отстает от ожиданий, это химическое вещество, дающее нам чувство благополучия, вырабатывается в меньшем количестве. Традиционное обучение с подкреплением у компьютерных систем устроено во многом так же — алгоритм делает прогноз и затем регулирует вознаграждение, исходя из разницы между ожидаемыми и действительными результатами. Исследователям из DeepMind удалось значительно усовершенствовать алгоритм обучения с подкреплением, сгенерировав распределение прогнозов вместо одного усредненного предсказания и затем корректируя вознаграждение в соответствии с ними. Затем компания совместно с группой исследователей из Гарварда проверила, происходит ли подобный процесс в головном мозге. Им удалось доказать, что мозг мышей действительно создает аналогичное распределение прогнозов: одни дофаминовые нейроны оценивают потенциальную награду более пессимистично, другие — более оптимистично. Иными словами, компания снова продемонстрировала наличие одного и того же базового механизма, обеспечивающего аналогичные результаты, в цифровом алгоритме и в биологическом мозге.
Исследования такого рода свидетельствуют о глубокой вере Хассабиса и его команды в обучение с подкреплением и об отношении к этому методу как к важнейшему элементу попыток приблизиться к более универсальному искусственному интеллекту. В этом плане они стоят особняком. Например, Ян Лекун из Facebook заявил, что отводит обучению с подкреплением второстепенную роль. В своих выступлениях он часто говорит, что если бы интеллект был тортом, то обучение с подкреплением представляло бы собой лишь вишенку на нем. Команда из DeepMind убеждена в принципиально большей значимости этого метода, а также видит в нем реальный путь к созданию универсального ИИ.
Обычно мы описываем обучение с подкреплением как действие основанного на вознаграждении алгоритма, оптимизирующего некоторые внешние макропроцессы, например освоение игры го или навыка вождения смоделированного автомобиля. Однако Хассабис отмечает, что обучение с подкреплением также играет определяющую роль в головном мозге и может являться обязательным условием возникновения разума. Вполне возможно, что обучение с подкреплением — первичный механизм, побуждающий мозг проявлять любопытство, учиться и мыслить. Представим, например, что естественная задача мозга сводится к исследованию и последующему упорядочиванию потока необработанных данных, непрерывно воспринимаемых животным, движущимся в своей среде обитания. По словам Хассабиса, «мы знаем, что при взгляде на что-то новое и необычное в мозге вырабатывается дофамин», и если мозг так устроен, что «поиск информации и ее структурирование само по себе есть вознаграждение, то это чрезвычайно полезная мотивация». Иначе говоря, двигателем, поддерживающим наше постоянное стремление к постижению окружающего мира, вполне может быть алгоритм обучения с подкреплением, связанный с выработкой дофамина.
Совершенно другого подхода к созданию универсального машинного интеллекта придерживается Дэвид Ферруччи, генеральный директор и основатель стартапа в области ИИ Elemental Cognition. Ферруччи более известен как глава команды, создавшей Watson, систему IBM, победившую Кена Дженнингса и других сильнейших игроков в Jeopardy! в 2011 году. После триумфа Watson Ферруччи ушел из IBM и присоединился к хедж-фонду с Уолл-стрит Bridgewater and Associates, где, по слухам, работал над использованием искусственного интеллекта для осмысления макроэкономики и помог воплотить управленческую и инвестиционную философию основателя Bridgewater Рэя Далио в алгоритмы, повсеместно используемые в фонде.
Сейчас Ферруччи совмещает должности директора по прикладному ИИ в Bridgewater и руководителя Elemental Cognition, получившей первоначальное венчурное финансирование от хедж-фонда. Ферруччи сказал мне, что целью Elemental Cognition является «подлинное понимание речи». Компания создает алгоритмы, способные автоматически читать тексты и затем поддерживать интерактивный диалог с людьми, в котором система углубляет понимание прочитанного, а также может объяснить свои выводы. Далее Ферруччи пояснил:
Мы хотим копнуть глубже внешней структуры языка, глубже паттернов, проявляющихся в частоте словоупотребления, и добраться до стоящего за ними смысла. На этой основе мы хотим строить внутренние логические модели, которые люди могут создавать и использовать в мышлении и коммуникации. Мы хотим получить систему, поддерживающую совместимый интеллект, способный при взаимодействии с человеком самостоятельно учиться и углублять понимание речи, диалога и тому подобного.
Это чрезвычайно смелая цель, на мой взгляд, очень близкая к созданию интеллекта человеческого уровня. Существующие ИИ-системы, обрабатывающие естественный язык, имеют те же самые ограничения, что продемонстрировала созданная DeepMind система DQN для игр Atari, когда ракетку сместили на несколько пикселей вверх. Точно так же, как DQN не понимает, что пиксели на экране представляют физический объект, который можно перемещать, сегодняшние системы распознавания языка реально не понимают, что означают слова, которые они обрабатывают. Вот какой вызов приняла компания Elemental Cognition.
Ферруччи явно уверен, что решение задачи понимания языка — самый верный путь к созданию универсального интеллекта. Вместо того чтобы погружаться в физиологию мозга, как команда из DeepMind, Ферруччи считает возможным напрямую сконструировать систему, способную приблизиться к человеку по уровню понимания речи и использования логики и мышления. Его отличает от остальных исследователей ИИ убежденность, что базовые кирпичики для создания универсального интеллекта у нас уже есть. Как говорит он сам, «я не считаю, подобно другим, что мы не знаем, как это сделать, и ждем какого-то колоссального прорыва. По-моему, это не так. На мой взгляд, мы прекрасно знаем, что делать, осталось лишь продемонстрировать результат».
Ферруччи с большим оптимизмом оценивает вероятность достижения этой цели в относительно близком будущем. В документальном фильме 2018 года он сказал: «Не пройдет и трех-пяти лет, как мы получим компьютерную систему, способную самостоятельно учиться понимать во многом так же, как это делает человеческий мозг». Когда я подловил его на этом прогнозе, он немного сдал назад, признав, что три-пять лет, пожалуй, слишком оптимистичный прогноз. Тем не менее, по его словам, он по-прежнему «считает, что мы сможем это увидеть в течение следующего десятилетия или около того. Ждать 50 или 100 лет не придется».
Чтобы достичь этой цели, команда из Elemental Cognition создает своего рода гибридную систему, включающую глубокие нейронные сети и реализации других методов машинного обучения в сочетании с программными модулями поддержки логики и мышления, основанными на традиционных методах программирования. Эффективность гибридного подхода (в противоположность стратегии, опирающейся исключительно на нейронные сети) обещает стать одним из важнейших дискуссионных вопросов в сфере ИИ.
Рэй Курцвейл, в настоящее время технический директор Google, также пытается приблизиться к универсальному интеллекту, идя по пути, сильно ориентированному на понимание речи. Курцвейл прославился, издав в 2005 году книгу «Сингулярность уже близка», благодаря которой стал считаться самым видным пропагандистом идеи «сингулярности». Курцвейл и его многочисленные последователи верят, что в один прекрасный день сингулярность приведет к появлению сверхчеловеческого машинного интеллекта, обусловив резкий перелом и крутой подъем кривой исторического развития человечества. В этой точке перегиба ускорение технологического прогресса станет настолько быстрым, что полностью, в немыслимых масштабах, преобразует каждую составляющую нашей жизни и цивилизации.
В 2012 году Курцвейл опубликовал еще одну книгу — «Как создать разум», в которой обрисовал концептуальную модель человеческого мышления. По его мнению, в головном мозге действует около 300 млн иерархических модулей, каждый из которых «способен распознавать последовательный образ и допускает определенную степень изменчивости». Курцвейл считает, что на основе этого модульного подхода можно в конце концов создать систему, способную учиться на намного меньшем объеме данных, чем современные системы глубокого обучения, в которых используется только контролируемое обучение или только обучение с подкреплением. Курцвейл обратился к Ларри Пейджу из Google за финансированием венчурного предприятия для практического воплощения этих идей. Но Пейдж убедил его вместо этого прийти в Google и реализовать свое видение, используя такое преимущество, как колоссальные вычислительные ресурсы компании.
На протяжении нескольких десятилетий Курцвейл предсказывает — и по-прежнему в это верит, — что универсальный ИИ будет создан примерно в 2029 году. В отличие от многих исследователей ИИ, он сохраняет веру в тест Тьюринга как эффективный показатель интеллекта человеческого уровня. Этот тест, предложенный Аланом Тьюрингом в статье 1950 года, в сущности представляет собой диалог, в ходе которого эксперт пытается определить, является ли собеседник человеком или машиной. Если эксперт (или коллегия экспертов) не может отличить компьютер от человека, это означает, что компьютер прошел тест Тьюринга. Многие специалисты не считают тест Тьюринга эффективным критерием отчасти потому, что он оказался не защищенным от мошенничества. Например, в 2014 году на конкурсе, устроенном Редингским университетом в Великобритании, чат-бот, созданный 13-летним украинцем, обманул судей, объявивших этот алгоритм первым, прошедшим тест Тьюринга. Разговор, впрочем, длился каких-то пять минут, и практически никто из специалистов в области искусственного интеллекта не отнесся к этому заявлению серьезно.
Курцвейл тем не менее уверен, что намного более строгий вариант этого теста был бы надежным индикатором подлинного машинного интеллекта. В 2002 году он заключил пари на $20 000 с предпринимателем Митчем Капором. В пари оговаривается сложный комплекс правил, включая наличие судейской коллегии из трех человек и четырех конкурсантов — чат-бота на основе ИИ и троих людей. Курцвейл выиграет пари лишь при условии, что к концу 2029 года большинство судей сочтет ИИ-систему человеком после двухчасового диалога с каждым из конкурсантов. Мне представляется, что прохождение этого теста было бы убедительным доказательством появления ИИ человеческого уровня.
Хотя Курцвейл известен как изобретатель, сейчас в нем видят прежде всего футуриста с довольно проработанной теорией долгосрочного ускорения технологического развития и набором экстравагантных, если не сказать завиральных идей о том, куда приведет этот прогресс. Говорят, он ежедневно принимает 100 или больше пищевых добавок в надежде продлить жизнь. Более того, он верит, что уже достиг «второй космической скорости в обретении долголетия», иными словами, рассчитывает доживать до каждой следующей инновации в области медицины, продлевающей жизнь. Делайте это бесконечно, избегая попадания под пресловутый автобус, — и вы достигнете бессмертия. Курцвейл сказал мне, что не пройдет и десяти лет, как любой из нас сможет позволить себе следовать этому плану. Он считает использование продвинутого искусственного интеллекта для высокоточного моделирования биохимических процессов важнейшей движущей силой прогресса. «Если бы мы смогли смоделировать биологические процессы, а в этом нет ничего невозможного, то сумели бы проводить клинические испытания за часы, а не за годы и генерировать собственные данные, как делаем это с беспилотными машинами, настольными играми или математикой», — сообщил он мне.
Подобные идеи, а особенно искренняя вера в возможность собственного бессмертия, превращают Курцвейла в объект для насмешек, и многие исследователи ИИ пренебрежительно относятся к его иерархической схеме создания универсального интеллекта. Однако из разговора с ним я вынес следующее: он и его идеи прочно утвердились в Google. После прихода в эту компанию в 2012 году он возглавляет команду, работающую над объединением его теории мозга с новейшими достижениями в глубоком обучении с целью создания продвинутой системы распознавания речи. Одним из первых результатов его работы является опция Smart Reply, способная давать готовые ответы в Gmail. Хотя это, по общему мнению, очень далеко от ИИ человеческого уровня, Курцвейл сохраняет веру в свою стратегию. Он сказал мне, что «люди используют этот иерархический подход» и что когда-нибудь его будет «достаточно для универсального ИИ».
Свой путь к универсальному искусственному интеллекту выбрала OpenAI, исследовательская организация из Сан-Франциско, основанная в 2015 году при финансовой поддержке в том числе Илона Маска, Питера Тиля и сооснователя LinkedIn Рида Хоффмана. Изначально OpenAI создавалась как некоммерческая организация, объявившая своей миссией безопасный и этичный поиск универсального ИИ. Ее появление в определенной мере связано с обеспокоенностью Илона Маска тем, что сверхчеловеческий машинный интеллект может стать серьезной угрозой для человечества. С самого начала своей деятельности OpenAI привлекла к работе некоторых ведущих исследователей в этой сфере, включая Илью Суцкевера — члена команды Джеффа Хинтона в Торонтском университете, создавшей нейронную сеть, которая одержала триумфальную победу в состязании ImageNet в 2012 году.
В 2019 году Сэм Альтман, в то время отвечавший за самый статусный инкубатор стартапов в Кремниевой долине Y-Combinator, стал генеральным директором OpenAI и осуществил сложную юридическую перетасовку, в результате которой к первоначальной некоммерческой организации была присоединена коммерческая компания. Это было сделано с целью получения инвестиций от частного сектора, которые позволили бы OpenAI вкладывать огромные средства в вычислительные ресурсы и конкурировать за профессионалов в области ИИ. Этот маневр быстро окупился: в июле 2019 года Microsoft объявила, что вложит в новую компанию миллиард долларов.
В гонке за универсальным ИИ OpenAI является, пожалуй, лучше всего финансируемым конкурентом DeepMind, принадлежащей Google, хотя имеет намного более скромный штат. OpenAI, как и DeepMind, занимается разработкой мощных глубоких нейронных сетей с использованием обучения с подкреплением, и ее команде удалось создать системы, способные побеждать лучших игроков в таких видеоиграх, как Dota 2. Однако OpenAI фокусируется на построении все более масштабных глубоких нейронных сетей на все более мощных вычислительных платформах. Хотя многие в этой области предупреждают, что масштабирование как стратегия становится неустойчивым, OpenAI сохраняет глубокую приверженность этому подходу. Действительно, миллиардная инвестиция Microsoft будет предоставлена по большей части в форме вычислительной мощности, обеспечиваемой облачной платформой Azur этого технологического гиганта.
Следует признать, что установка OpenAI «чем больше, тем лучше», позволила компании многого достичь. Один из самых значимых, хотя и спорных, ее прорывов был связан с демонстрацией мощной системы обработки естественного языка GPT-2 в феврале 2019 года. GPT-2 состоит из «генеративной» нейронной сети, обученной на огромном массиве текстов, загруженных из интернета. Генеративная система фактически дает обратный выходной сигнал, то есть вместо того, чтобы идентифицировать или классифицировать данные — как при снабжении фотографий подписями, система создает совершенно новые примеры, сходные с данными, на которых она была обучена. Генеративные системы глубокого обучения — это технологический фундамент так называемых дипфейков — медийных подделок, которые очень трудно или даже невозможно отличить от реальности. Дипфейки — критически важный фактор риска, связанный с искусственным интеллектом, последствия которого мы рассмотрим в главе 8.
GPT-2, получив вводный фрагмент текста или даже одно-два предложения, создает целое повествование: фактически она подхватывает вводный фрагмент там, где он заканчивается, и довершает сюжет. GPT-2 произвела переполох среди исследователей ИИ и в еще большей степени в СМИ, поскольку повествование, создаваемое ею, в большинстве случаев отличается поразительной связностью. Оно настолько связное, что OpenAI перестала делиться кодом GPT-2 с остальными исследователями ИИ, как поступила и со своим предыдущим проектом, опасаясь злоупотреблений. Руководство OpenAI беспокоила возможность вброса в интернет вала фейковых новостей, сгенерированных системой GPT-2, или, скажем, сфабрикованных отзывов на товары онлайн-магазинов. Это решение вызвало критику в сообществе исследователей ИИ, ценящем свободный обмен идеями. Менее чем через год OpenAI изменила свою позицию и в конце концов выпустила код GPT-2, что не привело ни к особой шумихе, ни к каким-либо явным злоупотреблениям. Как результат, на компанию посыпались обвинения в том, что она намеренно создала хайп вокруг своих исследований и добилась известности с помощью алармизма.
Хотя «сочинения», генерируемые GPT-2, в общем состоятельны в отношении грамматики и структуры, даже беглое чтение позволяет понять, что в повествовании есть серьезные недостатки. Вот фрагмент из примера, выложенного на сайте OpenAI.
Стартовый фрагмент, написанный человеком
Ученый совершил потрясающее открытие. Оказывается, в не исследованной прежде долине далеко в Андах живет стадо единорогов. Еще больше исследователей поразило то, что единороги говорят на безупречном английском языке.
Текст, сгенерированный GPT-2
Ученый назвал этих существ «единорогами Овидия» по их характерному рогу. Эти четырехрогие серебристо-белые единороги были до сих пор неизвестны науке.
Сегодня, почти через два столетия, наконец раскрыта тайна происхождения этого удивительного явления.
Доктор Хорхе Перес, эволюционный биолог из Университета Ла-Паса, и несколько его спутников, исследуя Анды, обнаружили маленькую долину, где не было ни других животных, ни людей. Перес обратил внимание, что в долине имеется природный источник, обрамленный двумя горными пиками, покрытыми серебряным снегом.
Перес и его спутники проникли в глубь долины. «Когда мы достигли вершины горного пика, вода выглядела голубой с какими-то кристаллами на поверхности», — рассказал Перес.
Перес с друзьями были поражены, увидев стадо единорогов. За этими существами можно было наблюдать с воздуха, не совершая лишних перемещений, чтобы их увидеть, — они находились так близко, что можно было потрогать их рога.
Рассматривая этих диковинных созданий, ученые обнаружили, что те еще и разговаривают на весьма правильном английском языке. Перес заявил: «Мы заметили, например, что у них имеется общий “язык”, нечто вроде диалекта или диалектики».
История на этом не кончается, есть еще несколько абзацев, но уже в самом начале мы узнаем об открытии нового вида «четырехрогих» единорогов. Далее нам сообщают, что единороги разговаривают на «правильном английском языке», однако у них «имеется общий “язык”, нечто вроде диалекта или диалектики». Остается лишь гадать, как следует понимать предложение: «За этими существами можно было наблюдать с воздуха, не совершая лишних перемещений, чтобы их увидеть, — они находились так близко, что можно было потрогать их рога».
Совершенно ясно, что, хотя в миллионах искусственных нейронов, составляющих огромную систему OpenAI, действительно что-то складывается, реальное понимание отсутствует. Система не знает, кто такой единорог и что «четырехрогая» разновидность противоречит смыслу этого слова. GPT-2 страдает от тех же принципиальных ограничений, что пытаются преодолеть команда Дэвида Ферруччи из Elemental Cognition и Рэй Курцвейл в Google.
В мае 2020 года OpenAI выпустила GPT-3, гораздо более мощную систему. Если нейронная сеть GPT-2 включала около 1,5 млрд весов, оптимизировавшихся в процессе обучения, то в GPT-3 их число было увеличено более чем в 100 раз, до 175 млрд. Нейронная сеть GPT-3 была обучена почти на полутерабайте текстов. Это огромный объем, вся англоязычная версия «Википедии» — порядка 6 млн статей — составляет лишь около 0,6% от него. OpenAI на раннем этапе предоставила избранной группе исследователей ИИ и журналистов доступ к новой системе и объявила, что планирует со временем превратить ее в свой первый коммерческий продукт.
В следующие несколько недель, когда люди начали экспериментировать с GPT-3, соцсети бурлили в изумлении от ее возможностей. Получив подходящие стартовые фрагменты, GPT-3 могла писать убедительные статьи или стихотворения в стиле давно умерших авторов. Она умела даже генерировать псевдодиалоги исторических или вымышленных фигур. Один студент колледжа с помощью этой системы сгенерировал все посты для блога в жанре «помоги себе сам», который взлетел на вершину рейтинга. Все это породило разговоры о том, что система является принципиальным прорывом на пути к машинному интеллекту человеческого уровня.
Однако скоро стало ясно, что самые впечатляющие примеры были выбраны из массы вариантов и что GPT-3, как и ее предшественница, часто выдавала складно написанную бессмыслицу. Обе системы OpenAI по сути представляют собой мощные механизмы прогнозирования. Если дать им последовательность слов, они превосходно предсказывают, каким будет следующее слово. GPT-3 достигла в этом деле беспрецедентного уровня, и, поскольку гигантский поток текстов, на которых система была обучена, несет в себе реальные знания, она действительно часто выдает очень полезный результат. Однако и у GPT-3 нет стабильности, и она нередко выдает чушь и не может справиться с заданиями, которые показались бы простыми любому человеку. По сравнению со своей предшественницей GPT-3, безусловно, может написать гораздо более увлекательный рассказ о единорогах. Однако и она не понимает, что такое единорог.
Что, если OpenAI продолжит просто вбрасывать в эту задачу больше вычислительных ресурсов, создавать все более мощные нейронные сети? Есть ли вероятность появления истинного понимания? Мне это представляется крайне маловероятным, и многие эксперты в области ИИ чрезвычайно критически относятся к упорной вере OpenAI в масштабируемость. Стюарт Рассел, профессор компьютерных наук из Калифорнийского университета в Беркли, соавтор лучшего в мире университетского учебника по искусственному интеллекту, сказал мне, что для создания универсального ИИ потребуются прорывы, «совершенно не связанные с более крупными комплексами данных или более быстрыми машинами».
Тем не менее команда OpenAI не теряет уверенности. Выступая в 2018 году на конференции, посвященной технологиям, ведущий ученый компании Илья Суцкевер сказал: «Мы оценили прогресс в этой области за последние шесть лет. По нашему мнению, существует очень серьезная возможность появления универсального ИИ в ближней перспективе». Через несколько месяцев на другой конференции генеральный директор OpenAI Сэм Альтман заявил: «Я действительно считаю, что секрет создания [универсального ИИ] в значительной мере кроется в недостаточном масштабе этих систем — их нужно делать все крупнее и крупнее». Судьба этого подхода еще не определена, но, на мой взгляд, для успеха OpenAI следует расширять поиски подлинных инноваций, а не просто наращивать размер нейронных сетей.
Пока исследователи сражаются с трудностями, идеи, проповедуемые сторонниками символического ИИ, переживают своеобразное возрождение. Практически все признают, что задачи, с которыми не слишком успешно пытались справиться символисты, должны быть решены, чтобы искусственный интеллект мог развиваться. За исключением относительно немногочисленных убежденных приверженцев глубокого обучения — в основном связанных с OpenAI — мало кто уверен в том, что простого масштабирования существующих нейронных алгоритмов в сочетании с более быстрыми компьютерами и более значительными объемами данных будет достаточно для возникновения логического мышления и понимания на уровне здравого смысла, без которых невозможен универсальный интеллект.
Положительная сторона сложившейся ситуации видится в том, что на сей раз вместо противоборства философских систем символистов и коннекционистов нас, возможно, ждет примирение и попытка интеграции. Новая область исследования была названа «нейросимволический ИИ». Не исключено, что это одно из самых важных начинаний для дальнейшей судьбы искусственного интеллекта. Десятилетия соперничества, порой жесткого, остались в прошлом, и новое поколение исследователей ИИ готово попытаться преодолеть разрыв между двумя подходами. Дэвид Кокс, директор лаборатории исследования ИИ Watson в Кембридже — совместного детища МТИ и IBM, говорит, что молодые исследователи «не имеют ничего общего с этой историей» и «готовы исследовать пересечения [подходов] и просто хотят заниматься чем-то крутым в области ИИ».
Существует два взгляда на пути достижения этой интеграции. Можно пойти напрямую, просто создавая гибридные системы, объединяющие нейронные сети с программными модулями на основе традиционных методов программирования. Алгоритмы, способные поддерживать логическое и символическое мышление, необходимо каким-то образом связать с глубокими нейронными сетями, сфокусированными на обучении. Это стратегия команды Дэвида Ферруччи из Elemental Cognition. Можно пойти другим путем — найти способ реализации возможностей символического ИИ непосредственно в архитектуре нейронных сетей. Этого можно достичь, сконструировав необходимую структуру в глубокой нейросети или — что мне представляется намного более умозрительным — разработав и систему глубокого обучения, и методику обучения настолько эффективные, чтобы требуемая структура возникла естественным образом сама. Возможно, молодые исследователи захотят изучить все возможности, но между специалистами, уже зарекомендовавшими себя в этой области, не утихает острая полемика по вопросу о том, какой путь является наилучшим.
Одним из самых яростных поборников гибридного подхода является Гэри Маркус, до недавнего времени профессор психологии и нейробиологии Нью-Йоркского университета. Маркус всегда резко критиковал чрезмерную, на его взгляд, концентрацию на глубоком обучении и в статьях и дебатах отстаивал мысль, что глубокие нейросети так и останутся поверхностными и хрупкими, а вероятность появления универсального интеллекта будет крайне малой, если отказаться от прямого использования идей, почерпнутых из символического ИИ. Маркус посвятил большую часть своей карьеры исследователя изучению того, как дети учатся и овладевают речью, и считает чрезвычайно маловероятным, что чистый подход на основе глубокого обучения позволит приблизиться к удивительным возможностям маленького человека. Его критика не всегда адекватно воспринималась сообществом ученых, занимающихся глубоким обучением. Несмотря на участие в создании стартапа по машинному обучению, который был куплен компанией Uber в 2015 году, этот лагерь считает его аутсайдером, не внесшим существенного вклада в область ИИ.
В целом опытные исследователи, тесно связанные с глубоким обучением, относятся к гибридному подходу пренебрежительно. Йошуа Бенджио сказал мне, что целью должно стать «решение части тех же проблем, которые пытается решить классический ИИ, но с использованием строительных блоков, взятых из глубокого обучения». Джефф Хинтон демонстрирует откровенное пренебрежение, заявляя, что «не видит в гибридах решения», и сравнивая подобную систему с гибридным автомобилем в духе машины Руба Голдберга, в которой электродвигатель используется для впрыска бензина в двигатель внутреннего сгорания. Дело в том, что пока не существует ясной стратегии встраивания возможностей символического ИИ в систему, целиком состоящую из нейронных сетей. Как отмечает Маркус, многие самые значительные достижения глубокого обучения, включая созданную DeepMind систему AlphaGo, являются в действительности гибридными системами, поскольку добиваются успеха только благодаря тому, что в дополнение к глубоким нейросетям используют традиционные алгоритмы поиска.
Пока исследователи спорят об эффективности гибридных моделей, параллельно разворачиваются дебаты о важности врожденной структуры, встроенной в системы машинного обучения. Многие глубокие нейросети действительно в той или иной степени включают предварительно разработанную структуру — примером являются сверточные архитектуры, используемые для распознавания зрительных образов. Однако многие «чистые» сторонники глубокого обучения считают, что такую структуру можно свести к минимуму и что эта технология способна развиваться практически с чистого листа. Например, Ян Лекун сказал мне, что «в конечном итоге нам не будут нужны точные конкретные структуры». Он подчеркивает отсутствие свидетельств наличия подобных структур в человеческом мозге, отмечая, что «микроструктура коры, судя по всему, является очень, очень однородной, будь то в зрительной или префронтальной областях». Исследователи из этого лагеря утверждают, что нужно сосредоточиться на разработке усовершенствованных методов обучения, позволяющих относительно неспециализированным нейронным сетям достигать лучшего понимания.
Такие исследователи, как Маркус, с опытом изучения когнитивного развития детей, яростно восстают против философии «чистого листа». Головной мозг маленького ребенка совершенно явно обладает врожденными возможностями, способствующими началу процесса обучения. Уже в первые дни жизни новорожденные распознают человеческие лица. В животном мире наличие действенного интеллекта, не зависящего от обучения, еще более очевидно. Энтони Задор, нейробиолог лаборатории Cold Spring Harbor, отмечает, что «белка может прыгать с дерева на дерево через считаные месяцы после рождения, жеребенок через несколько часов может ходить, а пауки рождаются с умением охотиться». Гэри Маркус часто приводит в пример альпийского козла (вид горных козлов, проводящих большую часть своей жизни на крутых коварных склонах). Новорожденные козлята уже через несколько часов способны стоять и передвигаться по склонам в среде обитания, где любое обучение методом проб и ошибок неминуемо закончилось бы смертью. Это встроенная технология: она поставляется в готовом виде. Исследователи из этого лагеря считают, что универсальный, гибкий искусственный интеллект также потребует когнитивных механизмов, встроенных непосредственно в структуры нейросетей или интегрированных в рамках гибридного подхода.
Сторонники глубокого обучения иногда говорят, что, даже если врожденная структура важна, она, скорее всего, возникнет естественным образом — как часть устойчивого процесса обучения. Однако если взять биологический мозг, то, на мой взгляд, никакая структура в нем не может являться результатом длительного обучения. Мы знаем, что обучение в течение жизни животного в определенной мере перестраивает его мозг; часто говорят, например, что нейроны, «которые одновременно возбуждаются, связаны вместе». Проблема в том, что у отдельно взятого организма нет возможности передать нейронную структуру, сформированную обучением в течение всей жизни, своему потомству. Невозможно чему-то научиться и добиться, чтобы информация, описывающая структуру мозга, связанную с этим знанием, была встроена в генетический код яйцеклетки или сперматозоида животного. Какая бы мозговая структура ни сформировалась в процессе жизни индивида, она умирает вместе с ним. Таким образом, представляется очевидным, что любая структура в мозге должна быть результатом нормального эволюционного процесса, иными словами, случайных мутаций, которые иногда делают организм более приспособленным к своей среде обитания и, как результат, с большей вероятностью передаются по наследству. Одна из возможностей на этом пути — непосредственное копирование такого процесса путем использования эволюционных или генетических алгоритмов. Однако намного быстрее может оказаться конструирование самих этих необходимых структур.
По поводу противостояния гибридного и «чистого» подхода на основе нейронных сетей можно сказать, что у сторонников глубокого обучения есть неотразимый аргумент. Очевидно, что в человеческом мозге нет отдельного компьютера, поддерживающего специальный алгоритм для всей той деятельности, которую не могли бы обеспечивать его нейронные сети. В нем есть только нейроны. Тем не менее мне кажется, что у гибридного подхода больше шансов принести практические результаты в ближней перспективе. Хотя биологическая эволюция пошла по пути чисто нейронной реализации, это не должно заслонять от нас возможность достижения более быстрого прогресса при использовании других методов. Не следует и отбрасывать жизнеспособные подходы только потому, что они кажутся неизящными. Мы высадились на Луну, не имея космического корабля из научной фантастики, способного снизиться, сесть, а затем улететь обратно. Мы применили намного более сложное — можно даже сказать, неуклюжее — решение, включавшее лунный модуль и много элементов, которые сбрасывались по ходу дела. Возможно, когда-нибудь у нас появится корабль как из научной фантастики, пока же мы просто осуществили прилунение.
Большинство исследователей ИИ признают: чтобы приблизиться к искусственному интеллекту человеческого уровня, потребуются значимые прорывы, однако мнения о том, какие именно изменения наиболее важны или какие вопросы следует решить в первую очередь, значительно расходятся. Ян Лекун часто приводит аналогию с преодолением горного хребта. Лишь поднявшись на первую вершину, вы сможете увидеть препятствия, ожидающие вас за ней. Преграды, которые нам предстоит преодолеть, неизбежно пересекаются с теми, что возникают на пути к созданию машин, способных в полной мере понимать естественный язык и участвовать в осмысленной свободной беседе. Давайте более детально познакомимся с некоторыми принципиальными проблемами, которые необходимо решить исследователям ИИ. Список не исчерпывающий, но машинный интеллект, который преодолеет эти препятствия, окажется намного ближе к универсальному ИИ, чем все существующее сегодня. Кроме того, система, действительно эффективно решающая любую из этих задач, наверняка станет основой практических разработок огромной коммерческой и научной ценности.
Под здравым смыслом мы, по сути, подразумеваем общее знание мира и его устройства. Мы опираемся на здравый смысл практически во всех аспектах нашей жизни, но особенно он важен в коммуникации. Здравый смысл восполняет недосказанное и позволяет нам концентрировать речь, опуская огромные объемы второстепенной информации.
Любой нормальный взрослый человек легко и непринужденно пользуется встроенным комплексом знаний, однако для машин это представляет колоссальную проблему. Наполнение искусственного интеллекта здравым смыслом — задача, тесно переплетающаяся со спорами вокруг символического или чистого нейронного подходов, а также с необходимостью встраивания структуры и знаний в ИИ-системы.
В последние годы наблюдается заметный прогресс в разработке ИИ-систем, способных анализировать текст и затем правильно отвечать на вопросы по нему. Например, в январе 2018 года программа, написанная Microsoft совместно с китайским технологическим гигантом Alibaba, сумела слегка превзойти средний человеческий уровень в тесте на понимание прочитанного, разработанном исследователями из Стэнфордского университета. Стэнфордский тест состоит из вопросов на основе статей из «Википедии», правильным ответом на каждый из которых является фрагмент текста, «прочитанного» ИИ-системой. Иными словами, в данном случае демонстрируется не истинная способность понимать, а умение извлекать информацию и распознавать закономерности — в чем, как мы убедились, системы глубокого обучения невероятно сильны. Если для ответа на вопрос необходимо хотя бы малейшее проявление здравого смысла или имплицитное знание мира, то результаты ИИ в таких тестах резко «сдуваются».
Нагляднее всего проблемы ИИ-систем со здравым смыслом проявляются на примере сформулированных особым образом предложений — так называемых схем Винограда. Составленные Терри Виноградом, профессором компьютерных наук из Стэнфорда, эти предложения используют неоднозначные местоимения для проверки способности машинного интеллекта к рациональному мышлению в рамках здравого смысла.
Приведу пример.
Члены городского совета отказали демонстрантам в разрешении, потому что они боялись насилия.
Кто боялся насилия? Ответ очевиден практически каждому: члены городского совета.
Поменяем теперь всего одно слово в этом предложении.
Члены городского совета отказали демонстрантам в разрешении, потому что они поддерживали насилие.
Кто поддерживал насилие?
Замена «боялись» на «поддерживали» полностью меняет смысл местоимения «они». На этот вопрос невозможно ответить правильно, просто извлекая из предложения информацию. Нужно в какой-то мере понимать этот мир, а именно что члены городского совета предпочитают спокойствие и порядок на улицах, а разъяренные демонстранты могут быть склонны к насилию.
Вот еще несколько примеров. Альтернативное слово, меняющее смысл предложения, приводится в квадратных скобках.
Кубок не помещается в коричневый чемодан, потому что он слишком [большой/маленький].
Какой предмет слишком [большой/маленький]?
Школьный автобус подал предупреждающий сигнал грузовику, потому что он ехал очень [медленно/быстро].
Кто ехал очень [медленно/быстро]?
Том бросил школьный портфель Рэю, когда он оказался [вверху/внизу] лестницы.
Кто оказался [вверху/внизу] лестницы?
Отвечая на серию подобных вопросов, любой нормальный грамотный взрослый, скорее всего, покажет результат, близкий к идеальному. Поэтому порог прохождения этого теста должен быть очень высоким. Однако в случае схем Винограда самые лучшие компьютерные алгоритмы показывают результаты, лишь минимально превосходящие простое угадывание.
Одна из самых интересных программ по наделению машинного интеллекта здравым смыслом осуществляется в Институте искусственного интеллекта Пола Аллена в Сиэтле, штат Вашингтон. Генеральный директор института Орен Эциони сказал мне, что это начинание — проект Mosaic — родилось отчасти в результате попыток института реализовать мечту сооснователя Microsoft Пола Аллена об ИИ-системе, способной прочитать главу из учебника по естествознанию и ответить на приведенные в конце вопросы. По словам Эциони, несмотря на «шедевральные» усилия его команды по достижению этой цели результаты были неблестящими — обычно система получала балл, соответствующий оценке «два». Одним из камней преткновения оказалась способность проявлять здравый смысл и логику, отвечая на вопросы. ИИ-системе относительно легко изучить фактический материал, например о фотосинтезе из учебника биологии. Реальная трудность возникает, говорит Эциони, когда попадается вопрос наподобие: «Если растение в горшке, находящееся в темной комнате, переставить ближе к окну, как станут расти его листья — быстрее, медленнее или с прежней скоростью?». Чтобы ответить на него, нужно понимать, что вблизи окна света больше, и уметь сделать логический вывод, что это позволит растению расти быстрее.
Первая цель проекта Mosaic — составить стандартный набор контрольных показателей для оценки способности машин проявлять здравый смысл. Когда она будет выполнена, институт планирует применить различные методы, в том числе «краудсорсинг, обработку естественного языка, машинное обучение и машинное зрение», для создания встроенного знания мира, необходимого для наделения ИИ-системы здравым смыслом.
Если Эциони и члены его команды верят в гибридный подход, объединяющий разнообразные методы, то у непоколебимых приверженцев глубокого обучения эта мысль, как и следовало ожидать, не вызывает энтузиазма. Я спросил Йошуа Бенджио, считает ли он важными такие начинания, как проект Mosaic, или полагает, что мышление на основе здравого смысла каким-то образом может возникнуть само собой в процессе обучения. В ответ он твердо заявил, что верит в подход на основе глубокого обучения: «Я убежден, что здравый смысл появится в ходе процесса обучения. Он возникает не потому, что кто-то всовывает вам в голову крупицы знания, это совершенно не так работает у людей». Ян Лекун также убежден, что путь к здравому смыслу лежит через обучение. По его словам, команда исследователей ИИ из Facebook работает над тем, чтобы «заставить машины учиться путем наблюдения за различными источниками данных — учиться тому, как устроен мир»: «Мы создаем модель мира, так что, возможно, появится та или иная форма здравого смысла и эта модель станет своего рода предсказательной, помогающей машине учиться так же, как учатся люди».
Радует, что оба подхода энергично применяют некоторые из ярчайших исследователей ИИ. Прорыв, ведущий к появлению ИИ-системы, способной стабильно мыслить на основе здравого смысла, как это считается само собой разумеющимся у людей, станет колоссальным шагом вперед — независимо от того, возникнет эта способность естественным образом или будет сконструирована.
Неконтролируемое обучение
Как мы узнали, два основных метода обучения глубоких систем — это контролируемое обучение, требующее большого количества размеченных данных, и обучение с подкреплением, предполагающее огромное число повторений, в процессе которых алгоритм пытается справиться с задачей. Хотя люди тоже пользуются этими методами, они составляют лишь крохотную долю процесса обучения, происходящего в мозге маленького ребенка. Малыши обучаются через простое наблюдение, слушая голоса родителей, а также непосредственно взаимодействуя и экспериментируя с окружающим миром.
У новорожденных этот процесс начинается почти сразу, они получают знания непосредственно из окружения задолго до того, как обретают физическую способность сколько-нибудь осознанно взаимодействовать с ним. Они каким-то образом формируют физическую модель мира и начинают создавать базу знаний — фундамент здравого смысла. Процесс непосредственного получения знаний без опоры на структурированные и размеченные данные называется неконтролируемым обучением. Это поразительное умение, возможно, обусловлено определенной когнитивной структурой, встроенной в мозг ребенка. Бесспорно одно: способность ребенка учиться самостоятельно, в частности осваивать речь, несоизмеримо превосходит все, чего можно достичь с помощью самых мощных систем глубокого обучения.
Неконтролируемое обучение в начале жизни в дальнейшем становится основой более сложных методов получения знаний. Даже если обучение ребенка постарше до некоторой степени контролируется, необходимые учебные данные составляют крохотную долю информации, которую нужно предоставить даже самым совершенным алгоритмам. Глубокой нейронной сети могут требоваться многие тысячи маркированных фотографий, прежде чем она сможет надежно связывать названия животных с их изображениями. В отличие от этого ребенку зачастую достаточно, чтобы родитель один раз указал на животное и сказал: «Это собака». А если ребенок узнает животное, то он, скорее всего, делает это в любом варианте, независимо от того, сидит собака, стоит или бежит по дороге.
Неконтролируемое обучение в настоящее время является одной из самых актуальных тем в области искусственного интеллекта. Google, Facebook и DeepMind создали команды, занимающиеся этой задачей. Однако достижений здесь немного, и до сих пор не появилось заметного числа практически значимых приложений, если не сказать, что ни одного. Факт остается фактом: никто на самом деле не понимает, как человеческий мозг достигает беспрецедентной компетенции в самостоятельном обучении на неструктурированных данных. Сегодняшние исследования по большей части посвящены менее амбициозным целям в области неконтролируемого обучения. Это, в частности, прогностическое или самостоятельное обучение. Для примера можно привести проекты, в которых ставится цель предсказать следующее слово в предложении или изображение в следующем кадре видео. Казалось бы, эти задачи очень далеки от способностей человека, но многие исследователи убеждены, что способность делать прогнозы — обязательный элемент интеллекта и что подобные эксперименты позволят продвинуться в нужном направлении. Трудно переоценить значимость подлинного прорыва в неконтролируемом машинном обучении. Например, по мнению Яна Лекуна, это может открыть дорогу к прогрессу практически во всех других составляющих универсального интеллекта. Вот его слова: «Пока мы не поймем, как это сделать… нам не добиться существенного прогресса, поскольку, на мой взгляд, это ключ к обретению того базового знания о мире, которое достаточно для появления здравого смысла. Это главное препятствие».
Понимание причинно-следственной связи
Студентам, изучающим статистику, часто напоминают, что «корреляция — это не причинно-следственная связь». Для искусственного интеллекта и особенно систем глубокого обучения понимание заканчивается на корреляции. Джуда Перл, известный ученый-компьютерщик из Калифорнийского университета в Лос-Анджелесе, за последние 30 лет совершил переворот в исследовании причинности и создал формальный научный язык для описания причинно-следственных взаимосвязей. Перл, получивший премию Тьюринга в 2011 году, часто подчеркивает, что если любой человек интуитивно понимает, что восход солнца заставляет петуха кукарекать, а не наоборот, то для самой мощной глубокой нейронной сети это, скорее всего, недоступно. Причинность невозможно выявить, просто анализируя данные.
Люди наделены уникальной способностью не только замечать корреляцию, но и понимать причинность, причем на основании поразительно малого числа примеров. Джошуа Тененбаум, профессор вычислительной когнитивистики из МТИ, описывает предмет своих исследований как «обратное проектирование на основе человеческого разума» и надеется, что открытия на этом пути пригодятся при создании более умных ИИ-систем. Вот что он отмечает.
Даже маленькие дети зачастую могут выявлять неизвестную им причинно-следственную связь на основе всего лишь одного или нескольких примеров — им даже не нужно много данных, чтобы заметить статистически значимую корреляцию. Вспомните, как вы впервые увидели смартфон — неважно, iPhone или другое устройство с сенсорным экраном, на котором что-то появляется или начинает двигаться, стоит провести пальцем. Для вас это было внове, но, посмотрев раз или два, вы поняли, что здесь имеется причинно-следственная связь. Это и есть первый шаг к узнаванию того, как этим управлять и получать полезный результат.
Понимание причинно-следственной связи обязательно для воображения и построения мысленных альтернативных сценариев, позволяющих нам решать задачи. В отличие от алгоритма обучения с подкреплением, который должен тысячи раз потерпеть неудачу, прежде чем поймет, как достичь успеха, мы можем провести своего рода мысленное моделирование и определить вероятные результаты альтернативных действий. Это было бы невозможно без интуитивного понимания причинности.
Такие исследователи, как Перл и Тененбаум, считают, что понимание причинно-следственной связи — в сущности, способность задать вопрос «почему?» и ответить на него — станет важнейшей элементом создания универсального машинного интеллекта. Работа Перла в области причинно-следственной связи оказала огромное влияние на естественные и общественные науки, но он полагает, что исследователи ИИ по большей части не сделали из нее выводов и, в общем, слишком много внимания уделяют корреляции, столь эффективно выявляемой системами машинного обучения. Однако ситуация меняется. Например, Йошуа Бенджио и его команда в Монреальском университете недавно опубликовали результаты исследования новаторского подхода к обеспечению понимания причинности в сети глубокого обучения.
Трансферное обучение
Грэм Аллисон, политолог и профессор Гарварда, известен как создатель понятия «ловушка Фукидида». Это понятие отсылает нас к «Истории Пелопоннесской войны» древнегреческого историка Фукидида — хронике конфликта между Спартой и укрепляющимися Афинами в V веке до нашей эры. По мнению Грэма, в войне Спарты и Афин ясно просматривается исторический принцип, применимый и сегодня. В изданной в 2017 году книге «Обречены воевать» он утверждает, что Соединенные Штаты и Китай угодили в современную ловушку Фукидида и, если Китай продолжит наращивать мощь и влияние, конфликт может стать неизбежным.
Могла бы система искусственного интеллекта прочитать такой исторический документ, как «История Пелопоннесской войны», и успешно применить полученные знания к современной геополитической ситуации? Если да, то это означало бы, что достигнута одна из важнейших контрольных точек на пути к универсальному искусственному интеллекту — трансферное обучение. Способность получить информацию из одного документа и успешно использовать ее в других областях — один из отличительных признаков человеческого интеллекта и принципиальное условие креативности и инновации. Чтобы универсальный машинный интеллект был по-настоящему полезным, он должен уметь больше, чем просто отвечать на вопросы в конце главы. Он должен быть способен применять полученные знания и возникшее при этом понимание при решении совершенно новых задач. Прежде чем появится какая-то надежда на то, что ИИ-система сумеет это сделать, она должна продвинуться намного дальше поверхностного понимания, которое сегодня достигается в глубоких нейронных сетях, и добиться подлинного постижения. Способность применять знания в разнообразных областях и в новых ситуациях может оказаться самым лучшим тестом на наличие истинного понимания у машинного интеллекта.
Почти все исследователи ИИ, с которыми я разговаривал, считают, что искусственный интеллект человеческого уровня реален и когда-нибудь станет неизбежным. Мне это представляется обоснованным. В конце концов, мозг человека — это, в сущности, биологическая машина. Нет причин полагать, что в биологическом интеллекте есть что-то волшебное или что невозможно когда-нибудь встроить нечто подобное в совершенно иной носитель.
Более того, представляется, что субстрат на основе кремния имеет множество преимуществ перед биологической живой материей, поддерживающей работу человеческого мозга. Электрические сигналы в компьютерных чипах распространяются гораздо быстрее, чем в головном мозге, и любая машина, однажды сравнявшаяся с нами в способности мыслить и общаться, будет обладать всеми преимуществами, которые есть у компьютеров. Машинный интеллект будет безошибочно помнить даже то, что произошло в далеком прошлом, и уметь сортировать и перелопачивать колоссальные объемы данных с фантастической скоростью. Он также сможет напрямую выходить в интернет или другие сети, подключаться к практически безграничным ресурсам и без усилий общаться с другими машинами, даже если освоит общение с нами. Иными словами, ИИ человеческого уровня по определению будет во многих отношениях превосходить нас.
Несмотря на почти всеобщую убежденность, что эта цель когда-то будет достигнута, путь, который нас к ней приведет, и время прибытия по-прежнему тонут во мраке неопределенности. До сих пор прогресс был очень постепенным. Так, в конце 2017 года DeepMind выпустила AlphaZero, обновление своей системы AlphaGo для игры в го. В AlphaZero было покончено с необходимостью контролируемого обучения на данных о тысячах партий в го, сыгранных людьми, она начинает фактически с чистого листа, обучаясь исключительно на основе моделирования, играя сама с собой. Систему можно научить решать и другие задачи, в том числе играть в шахматы и японскую игру сёги. AlphaZero быстро доказала, что является самым сильным на планете игроком в шахматы, победив лучшие специализированные шахматные алгоритмы, которые обыгрывали самых сильных шахматистов. Демис Хассабис сказал мне, что AlphaZero, возможно, служит универсальным решением для игр «с полной информацией», то есть для таких задач, где легкодоступна вся необходимая информация, скажем фигурки на игровой доске или пиксели на экране.
Разумеется, реальный мир, в котором мы живем, далек от полноты информации. Почти все области, где мы хотели бы когда-нибудь использовать продвинутый искусственный интеллект, требуют способности действовать в условиях неопределенности и справляться с ситуациями, в которых огромные объемы информации скрыты или просто недоступны. В январе 2019 года DeepMind снова продемонстрировала прогресс, выпустив AlphaStar — систему для игры в стратегию StarCraft. StarCraft моделирует галактическую войну за ресурсы между тремя внеземными расами, каждой из которых управляет онлайновый игрок в реальном времени. StarCraft не является игрой с полной информацией — игроки должны вести «разведку», чтобы узнать скрытую информацию о том, чем заняты противники. Также требуется навык долгосрочного планирования и управления ресурсами в огромном игровом пространстве. Очередным триумфом команды DeepMind стала победа AlphaStar над сильнейшим профессиональным игроком в StarCraft с разгромным счетом 5:0 в турнире, проведенном в декабре 2018 года.
Это впечатляющие достижения, однако они по-прежнему не преодолевают принципиальные ограничения, привязывающие современные ИИ-системы к узким областям. Например, AlphaStar требует масштабного обучения, как контролируемого, так и с подкреплением, для игры за определенную расу инопланетян. Переход к другой расе с иными сильными сторонами требует полного переобучения. Аналогично AlphaZero легко становится сильнейшим в мире игроком в шахматы или сёги, но она и ребенка не обыграет в шашки без соответствующего переобучения. Даже самые мощные системы, представляющие передовой рубеж исследования ИИ, являются поверхностными и хрупкими. Как отмечает Орен Эциони из Института Аллена, любая из этих систем продолжит невозмутимо играть, даже если узнает, что комната объята пламенем. У них нет здравого смысла, нет подлинного понимания.
Сколько времени понадобится, чтобы преодолеть эти ограничения и создать по-настоящему мыслящую машину? В процессе разговоров с лучшими умами в сфере ИИ, приведенных в моей книге «Архитекторы интеллекта», я просил дать прогноз, в каком году универсальный искусственный интеллект может быть создан хотя бы с 50%-ной вероятностью. Большинство опрошенных пожелали сохранить анонимность своих предсказаний, а пять исследователей отказались дать прогноз, отметив, что путь к ИИ человеческого уровня отличается огромной неопределенностью и что придется преодолеть неизвестно сколько препятствий. Тем не менее 18 ведущих мировых экспертов в области ИИ все-таки поделились со мной своими оценками. Результаты приведены далее в таблице. По-моему, они очень интересны.
Обратите внимание, что эти прогнозы были даны в 2018 году, из-за чего в них преобладают годы, кончающиеся на 8. Например, прогноз «2038 год» может в действительности означать «через 20 лет от настоящего момента». Я почти уверен, что если бы спросил тех же специалистов высказать предположения сейчас, то получил бы такие же оценки, иначе говоря, названные даты сдвинулись бы вперед года на три. Это заставляет опасаться, что к созданию универсального ИИ применима старая шутка физиков о термоядерном синтезе, «до овладения которым всегда остается 30 лет».
Средняя оценка — 2099 год, или примерно через 80 лет. Четко выделяются граничные мнения двух человек, согласившихся дать прогноз официально. Как мы видели, Рэй Курцвейл твердо верит в то, что ИИ человеческого уровня появится к 2029 году — теперь уже всего через восемь лет. Родни Брукс, сооснователь iRobot Corporation и, по общему признанию, один из ведущих робототехников в мире, считает, что до появления универсального ИИ пройдет почти 180 лет. Такой разрыв — когда одни исследователи ожидают создания ИИ человеческого уровня в пределах одного-двух десятилетий, а другие полагают, что для этого потребуются столетия, — представляется мне яркой иллюстрацией того, насколько непредсказуемо будущее искусственного интеллекта.
Попытки создать ИИ человеческого уровня кажутся мне самой захватывающей темой в исследовании искусственного интеллекта. Очень может быть, что когда-нибудь они выльются в самую значимую для человечества и наиболее подрывную инновацию. Пока, однако, искусственный интеллект как практический инструмент остается относительно узким и во многих отношениях ограниченным. Безусловно, ИИ-системы, созданные для решения задач в реальном мире, будут непрерывно совершенствоваться, вбирая в себя достижения передовых исследований. Однако в обозримом будущем реализация возможностей этой новой технологии, скорее всего, примет форму взрывного роста числа специальных приложений, которые уже начали разворачиваться почти во всех областях промышленности, экономики, общественной жизни и даже культуры.
Без сомнения, у ИИ есть большой потенциал, особенно в таких сферах, как здравоохранение, научные исследования и масштабные технологические инновации. Однако у этой технологии имеется и оборотная сторона. Искусственный интеллект несет с собой беспрецедентные вызовы и опасности для рабочих мест и экономики, для неприкосновенности частной жизни и безопасности, а в конечном счете, возможно, и для нашей демократической системы и даже самой цивилизации. Эти риски станут основной темой следующих трех глав.