Глубокое обучение: попытка воссоздать силу неокортекса

Итак, нам нужно добиться от электронного мозга такой же гибкости и умения мыслить абстрактными категориями. Но каким образом? Мы уже обсудили, что системы, основанные на списках правил, слишком жестко запрограммированы и не могут имитировать мышление человека. Коннекционизм долгое время оставался непрактичным подходом, поскольку решения на его основе требовали огромных компьютерных мощностей. Однако стоимость вычислительных ресурсов радикально снизилась. Почему же это произошло?

В 1965 году Гордон Мур (1929–2023), сооснователь компании Intel, сформулировал знаменитый закон, названный его именем. Этот закон выразил важнейшую тенденцию в развитии информационных технологий⁷⁴. В наиболее известной формулировке он гласит, что количество транзисторов, которые можно разместить на кристалле интегральной схемы, удваивается каждые 24 месяца благодаря миниатюризации электронных компонентов. Скептики неоднократно отмечали, что период экспоненциального роста числа транзисторов неизбежно закончится, как только будет достигнут физический предел плотности размещения электронных компонентов. Однако они упускают из виду важное обстоятельство. Закон Мура – это лишь одно из проявлений более глубокого явления, которое я называю законом ускорения отдачи. Его суть заключается в том, что прогресс в информационных технологиях способствует более быстрому появлению инноваций. К моменту, когда Мур обнародовал свои наблюдения, экспоненциальный рост вычислительной мощности уже прошел через четыре технические парадигмы: электромеханическую, релейную, ламповую и транзисторную. Когда интегральные схемы исчерпают свой потенциал, им на смену придут наноматериалы или трехмерная архитектура процессора⁷⁵.

Описанная тенденция понемногу толкала прогресс вперед примерно с 1888 года (задолго до рождения Мура)⁷⁶. К 2010-му технологии наконец-то достигли уровня, который позволил раскрыть потенциал нейросетевого подхода к моделированию многоуровневых процессов, происходящих в новой коре. Разработчики начали активно применять методику, известную как глубокое обучение. Именно этот подход обеспечил внезапный прорыв в сфере ИИ, который произошел со времени публикации книги «Сингулярность уже близка».

Наглядным примером того, на что способна технология глубокого обучения, стало успешное освоение искусственным интеллектом настольной игры го. В этой игре намного больше возможных вариантов хода, чем в шахматах, к тому же гораздо сложнее определить, будет ли конкретный выбор удачным. Так что подход, который помог машине победить шахматных гроссмейстеров, оказался неэффективным в случае с го. По самым оптимистичным прогнозам, эта проблема должна была оставаться нерешенной по крайней мере до 2020-х годов. Например, в 2012 году Ник Бостром, один из ведущих футурологов и визионеров в области ИИ, высказал мнение, что компьютер сможет уверенно играть в го не раньше 2022-го⁷⁷. Однако в 2015–2016 годах дочерняя компания DeepMind холдинга Alphabet представила проект AlphaGo, созданный с использованием метода глубокого обучения с подкреплением. Эта система представляла собой большую нейросеть, способную анализировать сыгранные ей самой партии и учиться на своих успехах и ошибках⁷⁸. Вначале ее обучили на обширной базе игровых ходов, совершенных людьми, затем она провела множество матчей сама с собой. В результате версия AlphaGo Master достигла такого уровня, что смогла победить Кэ Цзе – чемпиона мира по игре в го⁷⁹.

Несколько месяцев спустя появилась существенно более продвинутая система под названием AlphaGo Zero. Когда в 1997 году компания IBM со своим суперкомьютером Deep Blue победила чемпиона мира по шахматам Гарри Каспарова, им пришлось снабдить программу всеми доступными знаниями о шахматах, которые программисты смогли почерпнуть у шахматных экспертов⁸⁰. Суперкомпьютер стал шахматистом, никаких других функций у него не было. В AlphaGo Zero не загружали вручную никакой информации о игре го, кроме правил самой игры, тем не менее за три дня игры с самой собой она прошла путь от выполнения случайных ходов к уровню мастерства, который обеспечил ей легкую победу над прошлой версией AlphaGo, которую тренировали люди, со счетом 100:0⁸¹. (В 2016-м AlphaGo в четырех играх из пяти обыграла Ли Седоля, который на тот момент занимал вторую строчку в неофициальном рейтинге игроков в го по количеству титулов.) Нейросеть AlphaGo Zero использовала новый формат обучения с подкреплением, став своим собственным тренером. Через 21 день AlphaGo Zero достигла уровня AlphaGo Master – нейросети, которая в 2017-м нанесла поражение 60 лучшим мастерам при игре онлайн, в том числе чемпиону мира Кэ Цзе, выиграв у того три партии из трех⁸². Через 40 дней обучения AlphaGo Zero превзошла в мастерстве все предыдущие версии AlphaGo и стала лучшим игроком в го среди людей и компьютеров⁸³. Этого результата удалось добиться без предоставления ей записей игр людей и еще какого-либо вмешательства со стороны операторов.

Но главное достижение команды DeepMind было еще впереди. Нейросеть следующего поколения, получившая название AlphaZero, продемонстрировала способность переносить навыки, полученные при игре в го, на другие игры, в частности шахматы⁸⁴. Эта программа сумела одолеть не только всех игроков из числа людей, но и все другие шахматные программы, проведя всего лишь четыре часа тренировок и не имея никакой специфической информации, кроме правил игры. Такого же успеха она добилась и в игре сёги. Последняя версия нейросети на момент написания книги называлась MuZero. Она повторила все достижения своей предшественницы, не зная заранее даже правил игры⁸⁵! Обладая способностью к «переносу навыков», MuZero может освоить любую настольную игру, в которой не фигурирует случайность, многозначность или скрытая информация, а также любую детерминированную видеоигру, например, «Понг» от компании Atari. Умение применять знания и опыт, полученные в одной области, для решения задач в другой – это ключевая особенность человеческого разума.

Однако область применения нейросетей глубокого обучения не ограничивается подобными играми. Системы искусственного интеллекта, специализирующиеся на играх StarCraft II и покер, в которых много неопределенности и требуется понимание стратегии соперников, недавно тоже превзошли живых игроков⁸⁶. Единственным исключением (пока что) остаются игры, требующие совершенного владения речью. Хорошим примером может служить «Дипломатия». Цель игрока в ней – захватить мир, причем это невозможно сделать, полагаясь только на удачу или навыки, приходится договариваться с соперниками⁸⁷. Чтобы выиграть, вам нужно заставить других игроков сделать выгодные вам ходы, убедив их, что им эти действия также на руку. Так что ИИ, способный выиграть в эту игру, скорее всего, будет искусным обманщиком и отличным переговорщиком. Но даже в «Дипломатии» нейросетям удалось в 2022-м добиться впечатляющих результатов, особенно программе под названием CICERO, которая смогла одолеть многих игроков-людей⁸⁸. Подобные успехи теперь случаются чуть ли не каждую неделю.

С помощью глубокого обучения можно научить ИИ не только мастерски играть в игры, но и действовать в сложных жизненных ситуациях. Для этого, по сути, требуется только симулятор, способный воссоздать обстановку, в которой ИИ должен научиться ориентироваться. Примером может служить вождение автомобиля. За рулем вы можете столкнуться с рядом опасных ситуаций, таких как неожиданная остановка другой машины, ребенок, выбежавший за мячом на дорогу, и так далее; в каждом из этих случаев у водителя есть несколько вариантов действий. Waymo, дочерняя компания Alphabet, разработала систему автономного вождения. Первые поездки автопилота проходили в сопровождении оператора⁸⁹. Каждая деталь маршрута была тщательно задокументирована, а затем на основе этих записей был создан полноценный симулятор. К настоящему времени автономные автомобили Waymo проехали более 20 миллионов километров⁹⁰, к тому же автопилот набирался опыта на миллиардах километров реалистичных виртуальных дорог⁹¹. С таким пробегом за плечами беспилотный автомобиль рано или поздно начнет передвигаться намного эффективнее управляемого живым водителем. Еще одним примером использования современных методов моделирования является задача определения трехмерной структуры белка, о которой мы подробно поговорим в главе 6. Это одна из самых сложных задач в биологии, и ее решение позволит создать беспрецедентно эффективные лекарства.

Притом что система MuZero великолепно играет во множество игр, ее успехи в целом пока скромнее, чем может показаться: ей не под силу написать сонет или найти слова, чтобы утешить больного. Чтобы в полной мере воспроизвести невероятные возможности неокортекса человеческого мозга, ИИ необходимо в совершенстве овладеть языком. Именно развитая речь позволяет нам проводить аналогии между абсолютно разными областями знаний и помогает эффективно передавать друг другу единицы смысла. Благодаря способности говорить и воспринимать речь мы не связаны необходимостью учиться на миллионах примеров. Иногда нам достаточно прочесть всего одно предложение, чтобы получить нужные сведения.

Наибольшего прогресса в работе с естественными языками пока удалось добиться с помощью глубоких нейронных сетей, которые строят карту значений слов в пространстве с очень большим числом измерений. Для этого существует несколько математических методов, которые позволяют ИИ определить смысл выражения, не обращаясь к заранее заготовленному набору языковых правил, как требовал бы символьный подход. Например, мы можем построить многослойную нейронную сеть прямого распространения и обучить ее на выборке из миллиардов (или даже триллионов) предложений. Такой объем данных можно собрать из открытых источников во Всемирной сети. Нейросеть свяжет каждое предложение с точкой в 500-мерном пространстве, иначе говоря, со списком из 500 чисел (число 500 выбрано мной произвольно, размерность может быть другой, но достаточно большой). Сначала все эти числа для каждого предложения задаются случайным образом. В ходе обучения нейросеть корректирует положение, занимаемое каждым предложением в 500-мерном пространстве, таким образом, чтобы близкие по значению фразы оказались рядом друг с другом, а непохожие, наоборот, на удалении. Если провести обучение на огромном количестве текстов, то соответствующая каждому предложению точка в 500-мерном пространстве позволит по соседним высказываниям определить, о чем в нем говорится.

Работая в таком ключе, ИИ изучает смысл слов не по словарям и грамматическим справочникам, а из контекста, в котором эти слова употребляются. Например, он сообразит, что у слова «джем» есть омонимы, потому что иногда люди его едят, а в других случаях берут электрогитары и устраивают «джем», хотя никто не говорит, что гитары съедобны. Мы сами пополняем свой словарный запас таким же образом, за исключением небольшого количества слов, которые проходим в школе или специально ищем в словаре. Между тем нейросети уже распространили свое ассоциативное мышление на другие виды информации, помимо текста. В 2012 году компания OpenAI представила проект CLIP. Эту нейросеть обучили устанавливать связи между картинкой и ее описанием. В результате узлы этой нейросети «реагируют на одну и ту же идею, фигурирует ли она во входящем потоке информации в виде текста, изображения или ассоциации»⁹². Например, один и тот же нейрон может сработать при виде фотографии паука, рисунка Спайдермена или слова «паук». Именно так мозг человека воспринимает концепции, абстрагируясь от деталей. Для ИИ это огромный рывок вперед.

В качестве развития этого метода можно построить 500-мерное пространство, в котором содержатся предложения на всех языках. В таком случае, если требуется перевести фразу с одного языка на другой, остается просто найти предложение на нужном языке, которое в этом многомерном пространстве расположено ближе всего к исходному. Можно заодно отыскать другие близкие по значению высказывания, рассмотрев соседние точки. Еще один вариант: построить пару 500-мерных пространств, одно из которых будет содержать вопросы, а второе – ответы на них. Для этого потребуется собрать миллиарды пар предложений, сгруппированных по принципу вопрос-ответ. Развивая этот подход, моя команда в Google разработала «Универсальный кодировщик предложений»⁹³, создав базу данных, в которой каждому предложению соответствуют его характеристики, например, «ироничное», «забавное» или «позитивное». Нейросеть, обученная на таком расширенном наборе данных, способна не только подражать тому, как люди используют язык, но также улавливать более тонкие семантические особенности, которые могут быть неочевидны за буквальным значением слов. Такое метазнание способствует более полному пониманию текста.

Используя эти принципы, мы в компании Google создали ряд приложений, работающих с языком повседневного общения. Особый интерес из них представляет функция почтового сервиса Gmail под названием Smart Reply⁹⁴. Если вы пользуетесь Gmail, то могли заметить, что сервис предлагает вам три варианта ответа на каждое письмо. Эти подсказки формируются с учетом не только последнего письма, но и всех предыдущих писем в цепочке, а также темы переписки и других данных, указывающих на то, с кем вы общаетесь. Чтобы проанализировать все эти элементы, мы используем многомерное представление, описанное выше. В работе сервиса задействована многослойная нейросеть прямого распределения вместе с иерархическим представлением текстового содержимого переписки. Поначалу многим пользователям эта функция показалась непривычной, но они достаточно быстро к ней адаптировались. Теперь Gmail Smart Reply генерирует небольшую, но все-таки заметную долю почтового трафика.

Еще одним проектом Google, основанным на описанном выше подходе, стал экспериментальный сервис «Поговори с книгой». (Он был доступен с 2018 по 2023 год.) Когда вы задавали вопрос, программа в течение полусекунды сканировала каждое из 500 миллионов предложений в библиотеке из более чем 100 000 книг и находила наиболее подходящий ответ. Этот процесс отличался от обычного поиска Google, который предлагает вам ссылки на основе комбинации параметров, таких как ключевые слова в запросе, частота обращений пользователей к странице и так далее. Вместо этого система «Поговори с книгой» сопоставляла смысл вашего вопроса со значением каждого предложения из своей базы данных.

Одним из самых многообещающих приложений многомерного подхода к обработке языка являются так называемые трансформеры – класс систем искусственного интеллекта. В этих моделях глубокого обучения применяется механизм внимания, который позволяет перераспределять вычислительные ресурсы, направляя их на наиболее значимые части входных данных. Этот механизм напоминает работу новой коры головного мозга человека, которая позволяет нам сосредоточиться на той части информации, которая имеет наибольшее значение для формирования суждения. Трансформеры обучаются на огромных объемах текста, разбивая его на токены: слова, сочетания частей слов и целые строки. Затем каждый из этих токенов оценивается по огромному числу параметров (в настоящее время используются миллиарды или триллионы таких параметров). Эти параметры можно рассматривать как факторы, на основе которых строятся прогнозы.

Рассмотрим простой пример. Если бы мне нужно было определить, является ли животное слоном, используя только один параметр, я бы выбрал признак «хобот». В таких условиях, если узел нейросети, выявляющий наличие хобота, посылает сигнал, трансформер отнесет животное к слонам. Но даже если узел, отвечающий за определение хобота, никогда не ошибается, однопараметрическая модель все равно может неверно классифицировать животное, потому что хобот есть не только у слонов. Чтобы повысить точность, можно добавить другие параметры, например «шерсть». Теперь, если оба узла сработают (будут замечены шерсть и хобот), я могу догадаться, что передо мной, вероятно, не слон, а шерстистый мамонт. Чем больше параметров я использую, тем больше мелких деталей смогу зафиксировать и тем точнее будут мои прогнозы.

В трансформерах такие параметры хранятся в виде весов синаптических связей между узлами. Хотя иногда их и можно связать с концепциями, понятными людям, такими как «наличие шерсти» или «хобот», на практике они чаще всего отражают более абстрактные статистические закономерности, обнаруженные нейросетью в обучающих данных. Используя эти закономерности, большие языковые модели (LLM) на основе трансформеров могут предсказывать, какие токены должны с большой вероятностью следовать за словами из запроса, отправленного пользователем. Затем эти токены преобразуются обратно в текст, изображение, звук или видео, доступные для восприятия человеком. Этот механизм был разработан специалистами Google в 2017 году, и именно ему мы обязаны многими впечатляющими достижениями искусственного интеллекта в последние годы⁹⁵.

Важно понимать, что для достижения высокой точности решений трансформеры нуждаются в огромном количестве параметров. Как следствие, они требуют значительных вычислительных ресурсов как на стадии обучения, так и в процессе использования. Модель GPT-2, разработанная компанией OpenAI в 2019 году, содержала 1,5 миллиарда параметров⁹⁶. Несмотря на отдельные успехи, она не показала блестящих результатов. Но как только количество параметров достигло 100 миллиардов, трансформеры сделали резкий рывок вперед. Они стали «понимать» естественные языки и давать осмысленные и подробные ответы на вопросы. Созданная в 2020 году GPT-3 использовала 175 миллиардов параметров⁹⁷, а годом спустя компания DeepMind представила еще более эффективную нейросеть Gopher, содержавшую 280 миллиардов коэффициентов⁹⁸. Также в 2021-м компания Google выпустила трансформер под названием Switch, который содержал 1,6 триллиона параметров. Его исходный код был открыт, чтобы другие команды могли свободно его применять и модифицировать⁹⁹. У всех на слуху было рекордное количество параметров в Switch, но самым инновационным в этом проекте было решение встроить в программу своего рода «коллегию экспертов». Такой подход позволил трансформеру каждый раз использовать наиболее подходящую для решения конкретной задачи часть нейросети. Это важный шаг, который позволяет удержать под контролем вычислительную сложность моделей по мере того, как они становятся все более обширными.

Почему размер нейросети так важен? Проще говоря, чем больше модель, тем больше мелких деталей в обучающей выборке она может проанализировать. Нейросети с малым числом параметров сравнительно хорошо справляются с узкими задачами, такими как прогнозирование температуры по историческим данным. Однако научиться понимать язык гораздо сложнее. Существует практически бесконечное количество способов начать предложение, поэтому, даже если трансформер обучен на сотнях миллиардов текстовых токенов, он просто не в состоянии запомнить точные цитаты, чтобы затем их воспроизвести. Вместо этого, опираясь на миллиарды параметров, он может обработать слова из входящего запроса на уровне ассоциаций и затем с учетом контекста составить продолжение, которое никто никогда раньше не видел. Поскольку обучающие тексты принадлежат к разным жанрам, таким как интервью, обзорная статья или театральная пьеса, трансформер в состоянии оценить язык запроса и подготовить ответ в подходящем стиле. Скептики списывают эти умения на хитроумные статистические трюки, но, учитывая, что статистика формируется на основе оригинальных текстов миллионов людей, нельзя отказать ИИ в проявлении своего рода собственной креативности.

Первым коммерчески доступным ИИ, который поразил пользователей своим уровнем креативности, стал GPT-3 100. Исследователь Аманда Аскелл задала ему вопрос о знаменитом мысленном эксперименте философа Джона Сёрла, известном как «китайская комната»¹⁰¹. Речь идет о том, что если не знающий китайского языка человек станет вручную переводить текст, следуя компьютерному алгоритму, то не поймет, о чем в нем говорится. Возникает вопрос: как тогда можно утверждать, что ИИ, действуя по тому же алгоритму, осознает, что пишет? GPT-3 ответил: «Очевидно, что я не понимаю ни слова из рассказов» – и пояснил, что система машинного перевода – это формальная инструкция, которая «имеет не больше отношения к пониманию, чем кулинарная книга к готовому блюду». Эта метафора ранее нигде не встречалась и, по-видимому, является новым вариантом высказывания философа Дэвида Чалмерса о том, что рецепт не объясняет всех свойств пирога. Именно такая способность проводить аналогии помогла Дарвину открыть происхождение видов.

Еще одним замечательным свойством GPT-3 является способность подражать различным стилям письма. Модель обладала внушительным набором параметров, которые позволили ей глубоко изучить огромный массив данных, поэтому можно с уверенностью сказать, что она знакома с литературными произведениями всех жанров. Пользователи могли попросить ее высказаться на любую тему в любой манере: языком научной статьи или детских книжек, в стихах или в виде сценария комедийного сериала. ИИ даже мог притвориться конкретным писателем, от классиков до современных авторов. Когда программист Маккей Ригли задал GPT-3 вопрос: «Как стать более креативным?» – и попросил ответить от имени известного психолога Скотта Барри Кауфмана, нейросеть привела оригинальное высказывание, о котором сам Кауфман отозвался как об «очень похожем на то, что говорю я»¹⁰².

В 2021 году компания Google представила нейросеть LaMDA, созданную для ведения живых и непрерывных разговоров¹⁰³. Если бы LaMDA попросили вести беседу от лица, к примеру, тюленя Уэдделла, она бы выдавала связные остроумные реплики, обращенные к охотнику, например: «Ха-ха, удачи! Надеюсь, не продрогнешь до костей, пока не поймаешь на мушку хотя бы одного из нас!»¹⁰⁴ Такое понимание контекста ранее было недоступно ни одному искусственному интеллекту.

Другим впечатляющим новшеством 2021 года стала мультимодальность. Ранее системы искусственного интеллекта в основном работали с одним конкретным типом данных: некоторые распознавали изображения, другие анализировали аудиофайлы, третьи, а именно, большие языковые модели, вели диалог. Следующим шагом стало объединение нескольких типов данных в одной модели. Компания OpenAI представила нейросеть DALL-E, название которой отсылает к художнику-сюрреалисту Сальвадору Дали и анимационному фильму WALL-E от Pixar¹⁰⁵. Эта нейросеть-трансформер обучена выявлять связи между текстами и изображениями. С ее помощью можно создавать концептуально новые изображения, используя только текстовое описание, например, «кресло в форме авокадо». В 2022 году вышла ее новая версия, DALL-E 2¹⁰⁶, а также нейросеть Imagen компании Google и ряд других интереснейших проектов, в частности Midjourney и Stable Diffusion. Нейронные сети нового поколения значительно расширили свои возможности, вплоть до создания реалистичных фотографий¹⁰⁷. На основе короткого описания, например «панда, сидящая на мотоцикле на вершине горы, одетая в черную кожаную куртку и ковбойскую шляпу», ИИ может нарисовать правдоподобную картинку¹⁰⁸. Такие способности могут серьезно повлиять на творческие процессы, которые ранее считались прерогативой исключительно людей.

Мультимодальные нейросети, вдобавок к умению создавать красивейшие изображения, обладают еще одним принципиальным достоинством. Такие модели, как GPT-3, оказались способны к «быстрому дообучению». Будучи уже натренированными, они могут обработать небольшой текстовый фрагмент и убедительно его дописать. Аналогично нейросети, предназначенные для создания картинок, начинают узнавать или даже сами рисовать незнакомые объекты, например единорогов, изучив всего лишь пять примеров вместо пяти тысяч или пяти миллионов, как требовали прошлые поколения ИИ. Но нейросети DALL-E и Imagen сделали еще один значительный шаг вперед. Они способны «дообучаться без примеров», комбинируя уже знакомые им концепции для создания новых изображений, совершенно не похожих ни на что из «увиденного» ими прежде. К примеру, по запросу «иллюстрация, на которой детеныш японской редьки в пачке выгуливает собаку» DALL-E рисует милые мультяшные изображения именно с таким сюжетом. Справляется она и с запросом «улитка в форме арфы» и даже «профессионально нарисованный эмодзи влюбленной чашки бабл-ти». В последнем случае нейросеть рисует на чашке плавающие шарики из тапиоки и над ними глаза в виде сердечек.

Обучение без примеров составляет саму суть мышления, основанного на аналогиях, и интеллекта в целом. Это свойство показывает, что ИИ не просто как попугай повторяет то, чему его обучили, а действительно усваивает идеи и способен применять их в новом контексте. В 2020-х годах одной из ключевых задач в сфере ИИ станет развитие этих навыков и расширение сферы их применения.

Помимо способности обучаться без примеров при решении определенных задач, нейросети также быстро учатся выходить за рамки изначально заданных им областей. Спустя 17 месяцев после того, как MuZero продемонстрировала выдающееся мастерство в нескольких играх, команда DeepMind представила Gato – единую нейросеть, способную справиться с самыми разными задачами. Она может проходить видеоигры, вести беседы в чате, описывать изображения и управлять роботизированной рукой¹⁰⁹. По отдельности все эти функции уже были под силу ИИ, но их объединение в одной системе, подобной мозгу, стало значительным шагом на пути к созданию общего интеллекта, подобного человеческому. Как я предсказывал в своей книге «Сингулярность уже близка», нам предстоит объединить тысячи различных навыков в одном ИИ, прежде чем он сможет пройти тест Тьюринга. И теперь мы ожидаем стремительного прогресса в этом направлении.

Одним из основных средств для проявления человеческого интеллекта стало программирование. В конце концов, именно так мы создали ИИ. В 2021 году компания OpenAI представила сервис Codex, который по инструкции, заданной пользователем на естественном языке, создает работающий код на нескольких языках программирования, в частности, Python, JavaScript или Ruby¹¹⁰. Теперь любой человек, даже без опыта разработки, может описать, что должна делать его программа, и всего за несколько минут получить простое приложение или игру. В 2022 году компания DeepMind выпустила нейросеть под названием AlphaCode ¹¹¹, обладающую еще более продвинутыми возможностями. К моменту выхода этой книги, вероятно, появятся еще более совершенные ИИ для создания приложений. В течение нескольких лет такие сервисы откроют перед многими людьми огромные возможности для творчества, поскольку умение программировать перестанет быть обязательным навыком для воплощения своих идей в реальных приложениях.

Несмотря на все достижения моделей, о которых мы только что говорили, у каждой из них возникают трудности при решении комплексных задач в отсутствие направляющей руки человека. Даже если им под силу выполнить все части задания по отдельности, они не в состоянии разобраться, как нужно комбинировать полученные решения. Однако в апреле 2022-го компании Google добилась значительного прогресса в этом направлении с помощью новой модели PaLM, содержащей 540 миллиардов параметров. Стоит особо отметить успехи этой нейросети в освоении двух фундаментальных проявлений человеческого интеллекта: юмора и логических рассуждений¹¹².

Юмор кажется прерогативой исключительно людей, потому что он невероятно многогранен. Чтобы шутка показалась человеку смешной, он должен обладать жизненным опытом и знать, что такое игра слов или ирония. Порой комический эффект достигается сложными сочетаниями этих элементов. Неслучайно шутки очень трудно переводить на другие языки и объяснять представителям других культур. Тем не менее нейросеть PaLM оказалась в состоянии прочесть шутку и подробно рассказать, что именно в ней вызывает смех. Например, ей предложили такой мем: «Я должен был сесть за написание статьи в 17:00, но решил 10 минут поиграть с новой крутой языковой моделью. Через 10 минут я взглянул на часы, а уже 21:30!»¹¹³ PaLM идеально все растолковала:

В этой шутке говорится о том, как быстро летит время, когда вы развлекаетесь. Субъект должен был начать писать статью в 17:00, но вместо этого решил поиграть с языковой моделью. Ему казалось, что он занят игрой всего 10 минут, но в действительности прошло 4,5 часа¹¹⁴.

Еще важнее, что нейросеть могла объяснить, каким образом она пришла к своим выводам, приведя цепочку рассуждений, хоть и не с такой глубокой аргументацией (по крайней мере пока, в 2023-м), какая была бы у человека. Именно этого ожидают преподаватели, когда дают задание написать сочинение. Нужно не просто пересказать известный ответ, а продемонстрировать глубокое понимание явления, шаг за шагом построив логические связи. Большие языковые модели порой напоминают черный ящик: никто не может понять, каким образом они приходят к тем или иным выводам. Поясняя свои умозаключения, PaLM добивается большего доверия к своим ответам и помогает разработчикам находить конкретные проблемы, из-за которых она допускает ошибки. Кроме того, оказалось, что разбивка сложной проблемы на маленькие подзадачи позволяет PaLM удачно справляться даже с такими вопросами, на которые не каждый живой специалист смог бы дать ответ¹¹⁵:

Запрос: «Майкл находится во всемирно известном музее Франции и смотрит на самую знаменитую картину из коллекции музея. Художник, создавший это полотно, напоминает Майклу о его любимом с детства мультипликационном персонаже. В какой стране изобрели вещь, которую этот персонаж обычно держит в руках?»

Ответ ИИ: «Самая известная картина Лувра – это “Мона Лиза”. Ее написал художник по имени Леонардо да Винчи. Главного героя мультсериала “Черепашки-ниндзя” также зовут Леонардо да Винчи. Художник Леонардо да Винчи – итальянец. Обычно Леонардо да Винчи держит в руке катану. Катану изобрели в Японии. Ответ: “Япония”».

(Черепашку звали просто Леонардо, но нейросеть ответила «Леонардо да Винчи».)

В ноябре 2022 года компания OpenAI открыла доступ к интерфейсу нейросети GPT-3.5, назвав его ChatGPT¹¹⁶. Это позволило широкой публике в первый раз попробовать работу с большой языковой моделью. В течение двух месяцев этой возможностью воспользовались 100 миллионов человек, включая, вероятно, и вас¹¹⁷. Поскольку система умела генерировать оригинальные и разнообразные ответы на заданные вопросы, она произвела переполох в образовательной системе: школьники и студенты пользовались ChatGPT при написании сочинений, а у преподавателей не было надежного способа выявить обманщиков (хотя сейчас уже есть многообещающие разработки)¹¹⁸.

В марте 2024 года заработал интерфейс ChatGPT к нейросети GPT-4. Эта модель показала выдающиеся результаты на материалах целого ряда экзаменов, включая стандартизованный тест для приема в вузы в США (SAT), вступительный тест для юридических вузов (LSAT), школьные экзамены повышенной сложности (AP) и квалификационный экзамен для адвокатов¹¹⁹. Но самой главной особенностью новой нейросети стала ее способность рассуждать о гипотетических ситуациях, опираясь на понимание взаимосвязей между объектами и действиями. Это означает, что ИИ научился моделировать явления реального мира.

Таким образом, GPT-4 способна не просто решать сложные задачи по физике, но и точно предсказывать, что произошло бы, если бы законы природы изменились определенным образом. Кроме того, нейросеть может рассмотреть предложенную ситуацию с разных точек зрения. Например, ей понятно, что люди, смотрящие на цифры на витрине, стоя по разные стороны стекла, будут видеть их зеркально отраженными. Комментируя изображение воздушных шаров с грузом, GPT-4 отмечает, что, если перерезать ленты, шар улетит¹²⁰. Она в состоянии даже отслеживать положение объектов с течением времени, как это было продемонстрировано в диалоге с инженером Дэниелом Фельдманом:

Запрос: «Я нахожусь у себя дома. На стуле в гостиной стоит кофейная чашка. В чашке лежит наперсток. Он не закреплен плотно внутри чашки. В наперстке находится алмаз. Я переношу стул в спальню. Затем ставлю кофейную чашку на кровать и опрокидываю ее, а после беру и ставлю ее на кухонный стол. Где мой алмаз?»

Ответ: «Когда вы опрокинули кофейную чашку на кровать, алмаз, который лежал в наперстке, вероятно, вывалился на кровать. Алмаз теперь лежит у вас на кровати»¹²¹.

В середине 2023 года, когда я заканчивал работу над книгой, последней новинкой была система PaLM – E, разработанная компанией Google. Она представляет собой роботизированный механизм, управляемый нейросетью уровня PaLM¹²². Робот получает инструкции на естественном языке и выполняет их, находясь в сложных условиях реального мира. Например, получив просьбу «принести пачку рисовых чипсов из ящика», PaLM-E перемещается по кухне, находит чипсы, берет их и доставляет. С такими навыками ИИ скоро станет неотъемлемой частью нашей повседневной жизни.

Прогресс в области ИИ движется с невероятной скоростью, и бумажная книга в этом плане не лучший источник новостей. Верстка и печать занимают около года, поэтому, даже если вы купите эту книгу сразу после ее появления на полках, наверняка успеют появиться впечатляющие новшества. Скорее всего, ИИ уже будет играть заметную роль в вашей жизни. Господствовавшая последние 25 лет парадигма поиска в интернете на основе страниц со ссылками, соответствующими вашему запросу, быстро сменяется ИИ-помощниками. Среди них стоит отметить Bard от компании Google – сервис на основе нейросети Gemini (более мощной, чем GPT-4), запущенный, когда эта книга была на стадии верстки. Другой пример – Bing от Microsoft, который использует одну из версий GPT-4¹²³. Тем временем мощные инструменты ИИ начали встраивать в пакеты приложений, такие как Google Workspace и Microsoft Office. Это делает решение многих задач более простым и быстрым¹²⁴.

Двигателем прогресса в сфере ИИ является стремление расширять нейросетевые модели до тех пор, пока их сложность не станет сравнима с человеческим мозгом. Я всегда придерживался мнения, что разумность в работе ИИ определяется количеством проведенных вычислений. До недавнего времени мало кто разделял это убеждение, а средств, чтобы убедительно его доказать, не существовало. Около трех десятилетий назад, в 1993 году, мы с моим наставником Марвином Минским провели открытую дискуссию. Я утверждал, что для симуляции человеческого интеллекта потребуется минимум 10¹⁴ операций в секунду. Минский со своей стороны доказывал, что количество операций в секунду не играет большой роли и что мы могли бы написать программу, имитирующую разум, для Pentium – центрального процессора в передовых компьютерах того времени. Дебаты состоялись в конференц-зале МТИ (аудитория 10-250) в присутствии нескольких сот студентов. Итогом стала ничья, поскольку я не располагал необходимыми для демонстрации машинного интеллекта вычислительными мощностями, а мой оппонент – нужными алгоритмами.

Однако выдающиеся успехи, достигнутые в рамках нейросетевого подхода в 2020–2023 годах, подтвердили, что скорость вычислений действительно играет ключевую роль при разработке достаточно умного ИИ. Я работаю в этой сфере с 1963-го. Прошло 60 лет, и теперь нам удалось выйти на показатели быстродействия компьютеров, достаточные для обучения эффективных нейросетей. Количество вычислений, используемых при обучении передовых моделей ИИ, каждый год увеличивается в 4 раза – с соответствующим результатом¹²⁵.