Глава 3
Цель, заложенная в машину
Стюарт Рассел
профессор компьютерных наук и профессор-стипендиат по машиностроению в Калифорнийском университете (Беркли). Он автор (вместе с Питером Норвигом) книги «Искусственный интеллект: современный подход».
Ученый-компьютерщик Стюарт Рассел, наряду с Илоном Маском, Стивеном Хокингом, Максом Тегмарком и многими другими, настаивает на том, что следует уделять повышенное внимание тем потенциальным опасностям, которые сулит создание интеллекта сверхчеловеческого (или даже человеческого) уровня – так называемого ОИИ, общего искусственного интеллекта, чьи запрограммированные цели вовсе не обязательно будут совпадать с нашими собственными.
Ранние работы Рассела были посвящены описанию гипотезы «ограниченной оптимальности» как формального операционального определения интеллекта. Он разработал метод рационального метарассуждения, «суть которого, грубо говоря, заключается в том, что вы выполняете вычисления, которые, по вашим ожиданиям, улучшат качество итогового решения в максимально короткие сроки». Также Стюарт приложил руку к комбинированию теории вероятности с логикой первого порядка, благодаря чему возникла новая и гораздо более эффективная система мониторинга соблюдения условий договора о всеобъемлющем запрещении ядерных испытаний, и к задаче принятия долгосрочных решений (сам он предпочитает давать презентациям по последней теме названия вроде «Жизнь: играть и выигрывать за 20 триллионов ходов»).
Он сильно озабочен продолжающимися разработками автономного оружия, в частности смертоносных микродронов, которые можно с легкостью превратить в оружие массового уничтожения. Рассел составил черновик письма от имени сорока ведущих мировых исследователей ИИ к президенту Обаме, и его усилия ознаменовались рядом важных совещаний по вопросам национальной безопасности.
Ныне он сосредоточился на создании, повторяя его собственные слова, «доказуемо благотворного» ИИ. Стюарт желает гарантировать безопасность от ИИ за счет «внедрения явной неопределенности» в компьютерные системы: машины, таким образом, остаются в неведении относительно истинных целей людей-программистов, и подобный подход может привести к довольно радикальному переосмыслению тематики текущих исследований в области ИИ.
При этом имя Стюарта знакомо всем, кто обучался информатике и компьютерным наукам в последние двадцать лет. Вместе с соавтором он написал «полный» учебник по искусственному интеллекту, разошедшийся тиражом около 5 миллионов экземпляров на английском языке.
Среди множества вопросов, поднимаемых Норбертом Винером в книге «Человеческое применение человеческих существ» (1950) и сохраняющих актуальность по сей день, наиболее значимым для исследователей в области ИИ является вопрос, сформулированный следующим образом: «Возможно ли, что однажды человечество уступит машинам право распоряжаться своей судьбой?»
Винер считал машины ближайшего будущего слишком ограниченными для притязаний на глобальный контроль и предполагал, что посредством таких машин и машиноподобного контроля человеческие элиты низведут огромные массы людей до статуса «винтиков системы». Стараясь заглянуть в грядущее, он указывал на проблематичность правильной постановки целей для высокопроизводительных машин:
…мы узнаем некоторые элементарные и очевидные факты жизни, например: если найдешь джинна в кувшине, лучше его не выпускать; если рыбак слишком много раз просит благ от Небес по наущению своей жены, он останется ровно с тем, с чего начинал; если вам предложили три желания, нужно формулировать их с оглядкой на последствия.
Опасности достаточно очевидны:
Горе нам, если мы позволим ей [машине] определять наше поведение, прежде чем изучим законы ее действий и не будем полностью уверены, что ее работа строится на приемлемых для нас принципах. С другой стороны, подобная джинну машина, способная к обучению и принятию решений на базе этого обучения, никоим образом не окажется обязанной принимать те решения, какие приняли бы мы сами или какие были бы приемлемы для нас.
Десять лет спустя, увидев программу игры в шашки Артура Сэмюела, научившуюся играть намного лучше своего создателя, Винер опубликовал статью «Некоторые моральные и технические последствия автоматизации» в журнале «Сайенс». В этой статье он высказался недвусмысленно:
Если мы используем для достижения наших целей механического агента, в работу которого не можем эффективно вмешиваться… следует твердо удостовериться в том, что цель, заложенная в машину, есть та цель, к которой мы действительно стремимся…
На мой взгляд, вот источник того экзистенциального риска от разработки сверхинтеллектуального ИИ, о котором в последние годы говорили такие специалисты, как Илон Маск, Билл Гейтс, Стивен Хокинг и Ник Бостром.
Постановка целей перед машинами
Исследования в области ИИ до сих пор направлялись на понимание принципов, лежащих в основе интеллектуального поведения, и на «встраивание» этих принципов в машины, которые далее смогут демонстрировать такое поведение. В 1960-х и 1970-х годах преобладающей среди теоретиков характеристикой интеллекта считалась способность к логическим рассуждениям, включая также и умение планировать действия, гарантированно ведущие к достижению определенной цели. В последнее время получила признание и распространение концепция рационального агента, который воспринимает ожидаемую полезность и действует ради ее максимизации. Такие «субполя», как логическое планирование, робототехника и понимание естественного языка, являются частными случаями общей парадигмы. Исследования в области ИИ стали учитывать теорию вероятности для обработки неопределенностей, теорию полезности для определения целей и методики статистического обучения, призванные помочь машинам адаптироваться к новым обстоятельствам. Эти разработки обеспечили прочные связи исследований ИИ с другими дисциплинами, основанными на сходных концепциях, в том числе с теорией управления, экономикой, изучением операций и статистикой.
С точки зрения как логического планирования, так и деятельности рационального агента цель машины – будь то в форме «настоящей» цели, функции полезности или функции вознаграждения (как в обучении с подкреплением) – определяется экзогенно. Цитируя Винера, это «цель, заложенная в машину». Действительно, один из исходных принципов исследований ИИ гласит, что системы искусственного интеллекта должны быть универсальными, то есть способными воспринимать некую цель в качестве начального параметра и затем ее достигать, а вовсе не специализированными, где цель подразумевается конструкцией. Например, беспилотный автомобиль должен уметь принимать задаваемые разные пункты назначения, а не прокладывать маршрут к единственному фиксированному пункту назначения. Впрочем, некоторые характеристики «целей поездки» в беспилотных автомобилях остаются фиксированными: скажем, условие не давить пешеходов. Они встраиваются непосредственно в алгоритмы управления автомобилем, без явной формулировки: ни один современный беспилотный автомобиль не «знает», что пешеходам не нравится, когда их давят.
Постановка цели перед машиной, которая оптимизирует свое поведение в соответствии с четко определенными алгоритмами, кажется замечательным подходом, гарантирующим, что поведение машины будет опираться на «принципы, приемлемые для нас». Но еще Винер предупреждал, что мы должны научиться ставить правильные цели. Можно назвать эту задачу проблемой царя Мидаса: ведь тот получил ровно то, о чем просил, а именно превращение всего, к чему он прикасался, в золото, но слишком поздно для себя выяснил, что не так-то просто утолять жажду жидким золотом или насыщаться твердым золотом. Если воспользоваться техническим термином, постановка правильных целей – это юстировка ценностей. Когда данная процедура не срабатывает, мы непреднамеренно можем задать машинам цели, противоречащие нашим собственным. Например, решая задачу скорейшего поиска лекарства от рака, система искусственного интеллекта может счесть, что разумно использовать весь человеческий род в качестве подопытных морских свинок для своих экспериментов. В ответ на просьбу снизить кислотность Мирового океана она может ликвидировать весь кислород в атмосфере в качестве побочного эффекта. Такова общая характеристика систем, которые оптимизируют свою работу: переменные, не относящиеся к достижению цели, могут доводиться до предельных значений ради оптимизации способов достижения цели.
К сожалению, ни разработка ИИ, ни научные дисциплины (экономика, статистика, теория управления, изучение операций), предусматривающие оптимизацию целей, не способны внятно излагать методики выявления целей, «к которым мы на самом деле стремимся». Вместо этого они исходят из допущения, что цели просто «имплантируются» в машину. Исследования в области ИИ в их нынешнем виде направлены на изучение способности к достижению целей, а не на постановку этих целей.
Стив Омохундро указал на другое затруднение, отметив, что разумные существа должны действовать, чтобы обеспечивать свое существование. Это обстоятельство никак не связано с инстинктом самосохранения или любым другим биологическим понятием; все дело в том, что живое существо не способно достигать целей, если оно мертво. Согласно аргументам Омохундро, сверхразумная машина с выключателем – некоторые, включая самого Алана Тьюринга, если вспомнить его выступление на «Радио Би-би-си» в 1951 году, считают, что здесь таится наше потенциальное спасение, – предпримет какие-то меры для того, чтобы так или иначе деактивировать этот выключатель. Следовательно, перед нами встает перспектива появления сверхразумных машин, причем их действия, по определению, будут непредсказуемыми для нас, их нечетко определенные цели будут противоречить нашим собственным, а их мотивация к продлению своего существования ради достижения этих целей может оказаться важнее всякой другой.
1001 причина не обращать внимания
Разумеется, на эти аргументы выдвигаются возражения, прежде всего со стороны исследователей в области ИИ. Данные возражения суть естественная защитная реакция, возможно отягощенная недостатком воображения – в частности, относительно способностей сверхразумных машин. Но при ближайшем рассмотрении эти возражения не выдерживают критики. Давайте рассмотрим те, которые звучат чаще всего.
1. Не беспокойтесь, в случае чего мы просто выключим машину. Нередко эта мысль первой приходит на ум непрофессионалу при анализе рисков создания сверхразумного ИИ. Но он как будто не предполагает, что сверхразум этого не понимает. С тем же успехом можно утверждать, что шанс проиграть DeepBlue или AlphaGo ничтожен, если человек будет делать только правильные ходы.
2. Человеческий или сверхчеловеческий уровень для ИИ недостижим. Это необычное заявление для разработчиков и исследователей ИИ, учитывая тот факт, что со времен Тьюринга они отбиваются от аналогичных претензий со стороны философов и математиков. Данное утверждение, не подкрепленное, по-видимому, никакими доказательствами, как бы признаёт, что, если сверхинтеллект вообще возможен, он будет представлять собой немалый риск для человечества. Как если бы водитель автобуса, куда вместилось все человечество, сказал: «Да, я еду к обрыву! Мало того, я давлю педаль газа до упора! Но не сомневайтесь, бензин кончится раньше, чем мы окажемся на краю!» Это заявление выглядит безрассудной ставкой против человеческой изобретательности. Мы делали такие ставки раньше – и проигрывали. 11 сентября 1933 года знаменитый физик Эрнест Резерфорд с полной уверенностью изрек: «Любой, кто ожидает получить источник энергии из превращения этих атомов, несет чепуху». 12 сентября 1933 года Лео Силард открыл ядерную цепную реакцию под действием нейтронов. Несколько лет спустя он продемонстрировал такую реакцию в своей лаборатории в Колумбийском университете. Как он вспоминал позднее: «Мы выключили все приборы и пошли домой. Той ночью я практически уверился в том, что мир обречен на гибель».
3. Еще слишком рано беспокоиться. Когда именно начинать беспокоиться о потенциально серьезных проблемах человечества – это зависит не только от момента возникновения проблем, но и от сроков разработки и реализации решений, позволяющих с ними справиться. Например, обнаружив сегодня большой астероид, который, по расчетам, должен столкнуться с Землей в 2067 году, скажем ли мы, что беспокоиться рано? А если рассматривать глобальные катастрофические риски, которыми чревато изменение климата (как ожидается, все случится уже в текущем столетии), неужели рано принимать меры по их предотвращению? Наоборот, может быть уже поздно. Релевантные временны́е рамки для искусственного интеллекта человеческого уровня менее предсказуемы, но, как и в случае ядерной реакции, подходящие условия могут сложиться значительно раньше, чем ожидалось. Одним из вариантов данного возражения является заявление Эндрю Энга – мол, «с тем же успехом можно беспокоиться насчет перенаселенности Марса». Что ж, перед нами обращение к вроде бы очевидной аналогии: риск видится управляемым и относится к далекому будущему, а также крайне маловероятно, что мы вообще попытаемся переселить миллиарды людей на Марс. Но аналогия вводит в заблуждение. Уже выделяются колоссальные научные и технические ресурсы на разработку все более передовых систем ИИ. Более подходящей аналогией стал бы план по переселению человечества на Марс без единой мысли о том, как мы там будем дышать, что есть и пить по прибытии.
4. В любом случае человекоподобный искусственный интеллект не обязательно возникнет. К примеру, авторы доклада «AI-100» заверяют нас: «Вопреки чрезмерно фантастическим прогнозам по поводу ИИ в популярной прессе, исследовательская группа не нашла поводов для беспокойства относительно того, что ИИ является непосредственной угрозой человечеству». Это утверждение просто-напросто маскирует причины опасений, ведь нас тревожит отнюдь не неизбежность угрозы. В своей книге «Искусственный интеллект. Этапы. Угрозы. Стратегии» Ник Бостром пишет: «В этой книге вовсе не утверждается, что мы стоим на пороге большого прорыва в области искусственного интеллекта или что мы можем предсказать с любой степенью точности, когда подобное может произойти».
5. Да вы просто луддиты. Довольно странное определение луддитов, включающее в себя Тьюринга, Винера, Минского, Маска и Гейтса, то есть тех людей, которые непосредственно причастны к техническому прогрессу XX и XXI столетий. Кроме того, эпитет «луддит» отражает полное непонимание природы нашей озабоченности и причин ее возникновения. Точно так же можно обвинять в луддизме инженеров-ядерщиков, когда те рассуждают о необходимости контролировать ядерные реакции. Некоторые еще употребляют термин «анти-ИИ», и, продолжая аналогию, инженеров-ядерщиков можно было бы называть «антифизиками». Цель понимания и предотвращения рисков разработки ИИ состоит в том, чтобы обеспечить реализацию всех выгод такой разработки. Бостром, например, пишет, что успехи в «подчинении» ИИ обеспечат «вступление на цивилизационную траекторию, которая ведет к лучшему исходу – на благо всего человечества»; при всем желании вряд ли возможно увидеть здесь пессимистический прогноз.
6. Любая машина, достаточно умная для причинения неприятностей, будет достаточно умной для постановки соответствующих альтруистические целей. (Нередко этот довод предваряется утверждением, что по-настоящему умные люди, как правило, ставят перед собой более альтруистические цели; такая точка зрения может отражать самооценку тех, кто ее высказывает.) Этот довод связан с «гильотиной Юма» и натуралистической ошибкой Дж. Э. Мура; предполагается, что каким-то образом машина, обретя разумность, сама поймет, что правильно, исходя из опыта познания мира. Это совершенно неправдоподобно; например, по дизайну шахматной доски и шахматных фигур невозможно понять цель шаха и мата, а та же шахматная доска и те же фигуры могут быть использованы для игры в поддавки и многих других игр, которые только предстоит изобрести. Иными словами, Бостром воображает людей, истребляемых роботом, который превращает планету в море скрепок; мы, люди, воспринимаем такой исход как трагический, тогда как потребляющая железо бактерия Thiobacillus ferrooxidans пребывает в восторге от перспективы. Кто посмеет заявить, что бактерия не права? Сам факт того, что цели машинам задаются людьми, вовсе не означает, что машины автоматически оценят значимость объектов, не относящихся к цели, для людей. Максимизация цели вполне может доставить проблемы людям, но, по определению, машина не распознает эти проблемы как таковые.
7. Разумность многомерна, а потому выражение «умнее людей» лишено смысла. Одна из посылок современной психологии гласит, что показатель IQ не характеризует в полной мере все богатство когнитивных навыков, присущих людям в той или иной степени. Показатель IQ дает весьма приблизительную оценку человеческому интеллекту – и совершенно бесполезен для современных систем искусственного интеллекта, поскольку их возможности в разных областях не коррелируют между собой. Как сравнивать IQ поисковой системы Google, которая не умеет играть в шахматы, и тот же показатель суперкомпьютера DeepBlue, неспособного реагировать на поисковые запросы?
Ничто из сказанного не подтверждает, будто, поскольку интеллект многомерен, мы вправе игнорировать потенциальные риски создания сверхразумных машин. Если выражение «умнее людей» лишено смысла, то таково и выражение «умнее горилл», а потому гориллам нечего опасаться людей; ясно, что этот аргумент не выдерживает критики. Логически возможно, что одно существо может оказаться способнее другого в том или ином соответствующем измерении разума, и также возможно, что один вид живых существ будет представлять экзистенциальную угрозу для другого, даже если первый не обладает пониманием музыки и литературы.
Решения
Должны ли мы воспринимать предупреждения Винера как руководство к действию? Надо ли нам разрабатывать системы ИИ, чьи цели не будут противоречить нашим, чтобы мы были довольны их поведением? На первый взгляд эта затея кажется безнадежной, поскольку, безусловно, окажется невозможным правильно сформулировать наши собственные цели или вообразить все контринтуитивные способы, какими сверхразумная сущность может достигать этих целей.
Если рассматривать сверхразумные системы ИИ как своего рода «черные ящики» из космоса, тогда у нас действительно нет ни малейшей надежды. Но подход, который мы как будто вынуждены применять, если не хотим сомневаться в результатах, состоит в том, чтобы выявить некую формальную задачу F и проектировать системы ИИ для решения этой задачи, причем, независимо от точности решения, мы будем довольны итогом. Если получится составить задачу F с такими свойствами, мы сможем создать доказуемо благотворный ИИ.
Вот пример того, как не нужно это делать. Пусть наградой будет скалярная величина, периодически задаваемая человеком машине в соответствии с тем, насколько хорошо машина вела себя в течение конкретного промежутка времени; и пусть задача F будет задачей максимизации ожидаемой суммы вознаграждений, полученных машиной. Оптимальное решение задачи, вопреки очевидным ожиданиям, заключается не в хорошем поведении, а в том, чтобы контролировать человека-оператора и заставить его обеспечить поток максимальных наград. Перед нами образчик так называемой интерфейсной задачи, которая опирается на наблюдение, что сами люди подвержены тому же поведению, если располагают электронными стимуляторами собственных центров удовольствия.
Полагаю, что может оказаться эффективным следующий подход. Людей можно обоснованно описать как обладающих некими предпочтениями (обычно имплицитными) в отношении будущего – то есть при наличии достаточного времени и неограниченных визуальных средств человек способен выразить свое предпочтение (или безразличие), когда ему предлагается выбор между двумя вариантами будущего, изложенными во всех подробностях. (Эта идеализация игнорирует возможность того, что наш разум объединяет подсистемы с несовместимыми предпочтениями; если так и есть, это ограничивает способность машин оптимально удовлетворять наши предпочтения, но как будто не препятствует нам создавать машины, позволяющие избежать катастрофических результатов.) Формальная задача F решается машиной в данном случае для максимизации человеческих предпочтений применительно к будущему с учетом изначальной неуверенности в их содержании. Кроме того, пусть предпочтения относительно будущего суть скрытые переменные, они опираются на обильные фактические свидетельства, а именно на все человеческие решения, которые когда-либо были приняты. Эта формулировка позволяет обойти проблему, обозначенную Винером: конечно, машина способна узнавать о человеческих предпочтениях все больше и больше, но она никогда не добьется здесь полной определенности.
Более точное определение возможно дать в рамках совместного обучения с обратным подкреплением (CIRL). Тут задействуются два агента, один из которых – человек, а другой – робот. При двух агентах возникает ситуация, которую экономисты характеризуют как игру. Это игра в частичную информацию, поскольку человеку известна функция вознаграждения, но робот о ней не знает, хотя задача робота состоит в ее максимизации.
Вот простой пример: предположим, что некая женщина по имени Гарриет коллекционирует скрепки и канцелярские булавки, и для нее функция вознаграждения определяется знанием о том, сколько образцов каждого вида имеется в коллекции. Точнее, если у нее есть p скрепок и s булавок, то коэффициент счастья равен θp + (1 – θ) s, где θ есть фактически обменный курс между скрепками и булавками. Если θ равно 1, ей нравятся только скрепки; если θ равно 0, ей нравятся только булавки; если θ равно 0,5, то у нее нет предпочтений, и т. д. Робот Робби занимается производством скрепок и булавок. Смысл игры в том, что Робби хочет сделать Гарриет счастливой, но не знает значения θ, поэтому не уверен, какое количество каждых нужно произвести.
Вот как развивается игра. Пусть истинное значение θ равно 0,49, то есть Гарриет немного предпочитает булавки скрепкам. Давайте предположим, что Робби наделен неким предварительным мнением о θ, то есть он считает, что θ с равной вероятностью может иметь любое значение от 0 до 1. Гарриет проводит небольшую демонстрацию, показывает две скрепки для бумаг или две булавки – либо по одной из каждых. После этого робот может изготовить либо девяносто скрепок, либо девяносто булавок, либо по пятьдесят тех и других. Можно подумать, что Гарриет, которой больше нравятся булавки, следовало бы показать две булавки. Но в этом случае рациональным ответом Робби было бы изготовление девяноста булавок (с общим значением для Гарриет 45,9), что для Гарриет менее желательно, чем по пятьдесят штук тех и других (общее значение 50,0). Оптимальным решением конкретной игры будет демонстрация одной булавки и одной скрепки со стороны Гарриет, вследствие чего Робби затем изготавливает по пятьдесят булавок и скрепок. Способ развития игры тем самым побуждает Гарриет «учить» Робби, пока она считает, что Робби внимательно следит за происходящим.
В рамках CIRL можно формулировать и решать проблему выключателя – то есть разобраться, как помешать роботу деактивировать свой выключатель. (Тьюринг может покоиться с миром.) Робот, который не уверен в предпочтениях человека, действительно выигрывает от выключения, поскольку он понимает, что человек берется за выключатель, чтобы робот не сделал чего-то, противоречащего этим предпочтениям. Потому у робота имеется стимул не мешать выключению, и этот стимул напрямую связан с его неуверенностью относительно предпочтений человека.
Пример с выключателем предполагает наличие ряда шаблонов разработки контролируемых агентов и демонстрирует минимум один случай доказуемо благоприятной системы (в том смысле, о котором говорилось выше). В целом этот подход побуждает вспомнить о задачах проектирования механизмов в экономике, когда кто-то стимулирует других вести себя так, как это выгодно ему. Ключевое отличие состоит в том, что мы конструируем одного агента на пользу другому.
Есть основания полагать, что этот подход может доказать свою эффективность на практике. Во-первых, налицо обилие письменных и визуальных (фильмы) свидетельств человеческих действий (на которые реагируют другие люди). Технологии построения моделей человеческих предпочтений из этого массива данных, вероятно, появятся задолго до создания сверхразумных систем ИИ. Во-вторых, роботы наделяются сильными краткосрочными экономическими стимулами к пониманию человеческих предпочтений: если какой-то скверно спроектированный домашний робот примется готовить на обед кошку, не осознавая, что ее «сентиментальная ценность» выше пищевой ценности, индустрия домашних роботов мгновенно прогорит.
Впрочем, существуют очевидные трудности, поскольку этот подход предполагает, что робот будет изучать основные предпочтения в человеческом поведении. Люди иррациональны, непоследовательны, слабовольны и ограничены в своих вычислительных способностях, поэтому их действия далеко не всегда отражают их истинные предпочтения. (Возьмем, к примеру, двух человек, играющих в шахматы. Обычно кто-то проигрывает, но не нарочно!) Поэтому роботы могут обучаться на нерациональном человеческом поведении только при посредстве тщательно проработанных когнитивных моделей человека. Кроме того, практические и социальные ограничения будут препятствовать максимальному удовлетворению всех предпочтений одновременно, а это означает, что роботам придется выступать посредниками между конфликтующими предпочтениями, взваливая на себя бремя, под которым философы и социологи изнемогали на протяжении тысячелетий. Кстати, чему роботы должны научиться у людей, которые наслаждаются страданиями других? Возможно, лучше обнулить такие предпочтения в роботических вычислениях.
Поиск решения задачи управляемости ИИ чрезвычайно важен; быть может, это, цитируя Бострома, «главная задача нашей эпохи». До сих пор исследования в области ИИ фокусировались на системах, которые лучше принимают решения, но это не то же самое, что принимать наилучшие решения. Алгоритмы могут максимизировать превосходно, а модель мироздания может быть сколь угодно точной, однако выбор машины окажется беспросветно глупым в глазах обычного человека, если функция полезности робота плохо согласована с человеческими ценностями.
Эта задача требует изменить само определение ИИ – нужно отказаться от привязки к «чистому» интеллекту, без учета цели, и впредь рассматривать конструирование систем, доказуемо полезных для человека. Если мы всерьез займемся данной задачей, это, как представляется, откроет перед нами новые горизонты осмысления ИИ, его целей и наших отношений с машинами.