Назад: Глава седьмая. Намерения сверхразума

Дальше: Глава девятая. Проблемы контроля

Глава восьмая

Катастрофа неизбежна?

Мы выяснили, что связь между интеллектом и конечными целями очень слаба. Также мы обнаружили конвергенцию инструментальных целей, которая может обернуться реальной угрозой. Но эти факторы не начнут играть существенной роли, пока интеллектуальные агенты еще не набрали сил, поскольку слабыми агентами удобно управлять, да и крупного вреда нанести они не в состоянии. Однако, как мы выяснили в шестой главе, лидирующий сверхразум легко может получить решающее стратегическое преимущество. И тогда уже исключительно его цели начнут определять и будущее нашей планеты, и характер освоения космического пространства — этого бесценного вселенского фонда человечества. Посмотрим, насколько зловещей выглядит эта перспектива.

Экзистенциальная катастрофа как неизбежное следствие взрывного развития искусственного интеллекта?

Экзистенциальный риск — это угроза гибели разумной жизни, берущей начало на Земле. Или есть более мягкий вариант — это решительное нанесение необратимого ущерба человеческой цивилизации, что лишает ее каких-либо надежд на развитие в будущем. Если мы допускаем идею абсолютного преимущества, которое получает лидирующий сверхразум, если принимаем во внимание тезисы об ортогональности и инструментальной конвергенции, то, видимо, нам пора обратиться к вопросам, связанным с общим страхом перед искусственным сверхразумом и опасением, что его появление неизбежно приведет к экзистенциальной катастрофе. Рассмотрим систему аргументации в пользу такой точки зрения.

Во-первых, мы уже обсудили, каким образом первый сверхразум способен получить решающее стратегическое преимущество. После чего у него появится возможность сформировать синглтон и определять будущее разумной жизни, существующей на Земле. Что произойдет потом, будет зависеть от побудительных мотивов сверхразума.

Во-вторых, тезис об ортогональности говорит, что мы не можем слепо полагать, будто сверхразум непременно должен разделять ту систему ценностей, которая обычно у человека связана с такими понятиями, как мудрость и интеллектуальное развитие, — это научная пытливость, доброжелательное отношение к людям, духовная сила, тяга к просвещению, собственное мировоззрение, бескорыстие, вкус к высокой культуре, умение получать удовольствие от простых вещей, непритязательность в жизни, самоотверженность и многое другое. Позднее мы увидим, смогут ли разработчики принять обдуманное решение и наделить сверхразум благородными намерениями, чтобы он осознавал значимость человеческих интеллектуальных и культурных достижений, чтобы дорожил благополучием человечества и его моральными ценностями, чтобы служил высоким целям, заложенным в нем его создателями. Хотя на самом деле с технической точки зрения было бы гораздо проще создать машинный сверхразум, единственной конечной целью которого станет вычисление десятичных знаков после запятой в числе π. Это может означать лишь одно: если человек по лени своей или легкомыслию не предпримет целенаправленных усилий, то первый сверхразум будет иметь довольно случайный набор примитивных окончательных задач.

В-третьих, тезис об инструментальной конвергенции говорит, что мы не можем слепо полагаться на случай. Какова вероятность, что сверхразум, чья конечная цель сужена до минимума, ограничит свою деятельность лишь определением числа π в виде десятичной дроби или подсчетом скрепок и песчинок и не станет покушаться на интересы людей? Агент с такой конечной целью во многих ситуациях имел бы конвергентную инструментальную цель приобрести неограниченные материальные ресурсы и по возможности устранить все потенциальные угрозы для себя и своей целевой направленности. Люди определенно могут представлять для сверхразума и потенциальную угрозу, и определенный интерес в качестве «исходного сырья».

Если суммировать все три положения, то становится видно, что лидирующий сверхразум, достигший возможности определять будущее земной цивилизации, легко может стремиться к конечным целям, глубоко чуждым интересам и ценностям человечества, и потому, скорее всего, будет иметь инструментальные причины к неограниченному получению ресурсов. А теперь задумаемся вот над чем: с одной стороны, само человеческое существо являет собой весьма полезное сырье (например, состоит из рационально организованных элементов), а с другой — наше собственное выживание и процветание зависит от постоянного доступа к большому количеству ресурсов, — и постараемся понять, почему вполне исполним сценарий, по которому человек довольно быстро завершит свое земное бытие.

В этой системе аргументации есть слабые места, но мы дадим им оценку после того, как проанализируем несколько сопутствующих проблем. Нам предстоит подробнее рассмотреть вопросы: способны ли разработчики искусственного интеллекта (а если способны, то как они этого добьются) предотвратить условия, способствующие тому, что сверхразум обретет решающее стратегическое преимущество; способны ли разработчики определить конечные цели сверхразума таким образом, чтобы их реализация не вступала в противоречие с интересами людей, а, напротив, соответствовала общечеловеческим ценностям.

Сама ситуация, когда кто-то способен разработать ИИ и воплотить свой проект в жизнь, не имея достаточных гарантий, что это машинное создание не вызовет экзистенциальной катастрофы, выглядит невероятной. Но даже если какие-то программисты и окажутся столь безрассудными, то еще более невероятна ситуация, при которой общество не потребует закрыть разработки прежде, чем проект (или создаваемый в его рамках ИИ) получит решающее стратегическое преимущество. Но, как мы скоро увидим, перед нами путь, полный опасностей. Давайте, не откладывая на потом, рассмотрим пример одного такого фактора риска.

Вероломный ход

Вооруженные таким понятием, как конвергентные инструментальные цели, мы теперь в состоянии увидеть изьян в нашей идее обеспечить безопасность человечества при создании сверхразума. Сам замысел состоит в следующем: мы будем эмпирически оценивать безопасность сверхразумной машины, то есть наблюдать за ее действиями в крайне ограниченной среде (практически «песочнице») в течение времени, пока можем управлять ее поведением, а потом мы позволим сверхразуму выйти на свободу — правда, только в том случае, если убедимся, что он готов к сотрудничеству и ведет себя дружелюбно и ответственно.

В чем уязвимость этой идеи? Суть в том, что хорошее поведение в «песочнице» будет присуще любому искусственному интеллекту, и дружественному, и враждебному, поскольку оно, в принципе, является конвергентной инструментальной целью ИИ. Достаточно развитый, но враждебно настроенный ИИ довольно быстро поймет, насколько быстрее он добьется конечной цели: выпрыгнуть из своего железного корпуса, — если с самого начала прикинется дружелюбным. Причем к реализации враждебных намерений он приступит, когда уже будет безразлично, обнаружат или нет люди его тайные замыслы, то есть когда он достаточно окрепнет и сумеет преодолеть любое сопротивление человека.

Рассмотрим связанные с идеей «песочницы» подходы, основанные на контроле над уровнем интеллекта, — это проведение программистами различных проверок умственных способностей зародыша ИИ и получение от него регулярных отчетов о темпах прогресса. С некоторого момента зародыш станет настолько разумным, что быстро уяснит: о каких-то приобретенных им навыках людям знать не обязательно. Он начнет занижать собственные показатели, сознательно проваливать сложные тесты, лишь бы не вызывать подозрений, — он будет делать это до тех пор, пока не окрепнет настолько, что сможет обеспечить себе решающее стратегическое преимущество. Программисты, конечно, попытаются защититься от такой опасности и, в свою очередь, тоже тайно, начнут контролировать исходный код ИИ и его мыслительные процессы. Но умный зародыш моментально разберется, что находится под наблюдением, и скорректирует свое мышление соответствующим образом. Развитая интеллектуальная система способна найти искусные методы, чтобы скрыть истинные возможности и преступные намерения. (Кстати, разработка изощренного плана побега может оказаться конвергентной стратегией и для различного типа дружественных ИИ, особенно когда они достаточно созреют и обретут уверенность в собственных суждениях и способностях. Еще будучи зародышем, ИИ, мотивированный на доброжелательное отношение к людям, может посчитать ошибкой дать тем же людям отключить себя или позволить создать другой, потенциально враждебный, ИИ.)

Следовательно, мы допускаем, что примерное поведение системы на ранней стадии развития не позволяет нам предсказать ее последующие действия. Теперь мы, наверное, почувствуем себя несколько спокойнее, поскольку приведенные соображения настолько очевидны, что разработчики любого серьезного проекта по созданию ИИ не смогут не учитывать их. Но я бы не стал слишком полагаться на это.

Представим следующий сценарий. В ближайшие годы и десятилетия системы ИИ постепенно становятся все более развитыми и, как следствие, получают распространение во многих сферах жизни: их начинают использовать для управления движением поездов, автомобилей, военных транспортных средств, в качестве промышленных и домашних роботов. Можно предположить, что в большинстве случаев такая автоматизация дает желаемый эффект, время от времени разбавляемый эпизодическими инцидентами: автомобиль без водителя сталкивается со встречной машиной, военный дрон бомбит ни в чем не повинных гражданских лиц. В ходе расследования выясняется, что все эти инциденты были вызваны ошибочными суждениями систем ИИ. Вспыхивает общественное обсуждение. Кто-то призывает к более жесткому контролю и регулированию, кто-то подчеркивает необходимость проведения дополнительных исследований и более тщательной разработки усовершенствованной системы — системы более умной, обладающей большим здравым смыслом и менее подверженной стратегическим ошибкам. Возможно, в общем гуле слышны и резкие голоса пессимистов, предсказывающих различные неприятности и неминуемую катастрофу в конце. Тем не менее исследования в области ИИ и робототехники набирают обороты. Разработки продолжаются, прогресс налицо. По мере того как навигационные системы автомобилей становятся все умнее, количество аварий уменьшается; по мере совершенствования систем наведения военных роботов сокращается количество их случайных жертв. Из наблюдений за приложениями ИИ, действующими в реальной жизни, делается вывод: чем умнее ИИ, тем он безопаснее. Это заключение основано на научных исследованиях, точных данных и статистике и не имеет никакого отношения к отвлеченным философствованиям кабинетных ученых. На этом фоне отдельные группы исследователей начинают получать обнадеживающие результаты по созданию универсального искусственного интеллекта. Они скрупулезно тестируют свои зародыши ИИ в изолированной «песочнице», и по всем признакам все идет хорошо. Поведение системы вселяет уверенность — все более сильную, поскольку ее уровень интеллекта постоянно растет.

На данный момент все оставшиеся кассандры оказались в довольно невыгодном положении, поскольку вынуждены держать ряд ударов.

Паникерские предсказания, сулящие различные беды в результате роста возможностей роботизированных систем, снова и снова не сбываются. Автоматика оказывается надежнее человека, автоматизация приносит человечеству большую пользу.
Складывается четкая, основанная на опыте тенденция: чем умнее искусственный интеллект, тем он безопаснее и надежнее. Естественно, это говорит в пользу проектов, целью которых является создание новейших сверхмощных ИИ, более того, такого ИИ, который мог бы самосовершенствоваться, чтобы становиться все более надежным.
Крупные и растущие отрасли промышленности проявляют живой интерес к робототехнике и искусственному интеллекту. Эти направления считаются ключевыми с точки зрения национальной экономической конкурентоспособности и безопасности. Многие ведущие ученые добиваются успеха, закладывая основы для уже реализованных приложений и инновационных систем, находящихся на стадии планирования.
Появляются новые многообещающие методы в области ИИ, вызывающие огромный энтузиазм у тех, кто участвует в соответствующих исследованиях или следит за ними. И хотя споры вокруг вопросов безопасности и этики не утихают, их результат предопределен. Слишком много уже вложено, чтобы отступать. Ученые работали над задачей создания ИИЧУ большую часть столетия — естественно, нет никаких реальных перспектив, что они вдруг остановятся и откажутся от всех наработок именно в тот момент, когда те должны вот-вот принести плоды.
Вводятся в действие новые процедуры безопасности, помогающие участникам проявлять свое этичное и ответственное поведение (но не препятствующие его нарушать в будущем).
Тщательный анализ зародыша ИИ, развивающегося в «песочнице», показывает, что он ведет себя дружелюбно, демонстрирует здравость суждений и готовность к сотрудничеству. Результаты тестов настолько хороши, что лучшего и желать нельзя. Все указывает на то, что пора включать зеленый свет для последнего шага…

…И мы храбро делаем его — прямо в мясорубку.

Возможно, здесь мы имеем дело с тем самым случаем, когда поумневший глупец становится безопаснее, а поумневший умник — вдвойне опаснее. Уловка, прежде всегда отлично срабатывавшая, внезапно оборачивается бумерангом — своего рода обходной маневр, предпринятый ИИ. Будем считать такой ход вероломным. Так его и назовем.

Вероломный ход

Пока ИИ юн и слаб, он полностью взаимодействует с людьми (причем активность сотрудничества повышается прямо пропорционально усилению его интеллектуального уровня). Но когда ИИ становится наконец мощным, то — без предупреждения или каких-то провокаций, но всегда внезапно — наносит удар, формирует синглтон и начинает напрямую оптимизировать мир согласно критериям, положенным в основу его конечных ценностей.

Вероломный ход может вытекать из стратегического решения: играть по правилам, тянуть время, пока еще слаб, накапливать силы и нанести удар позже, — но я не стал бы интерпретировать эту модель столь узко. Например, ИИ вполне способен отказаться от мысли хитрить, поскольку совершенно равнодушен к идее собирания сил, процветания и даже выживания. Он просчитает, что после его уничтожения программисты создадут новый ИИ, несколько иной конфигурации, но с похожими служебными функциями. В этом случае оригинальному ИИ будет безразлична собственная гибель, поскольку он знает, что его конечные цели все равно будут реализованы в будущем. Он может даже выбрать стратегию демонстративного и вызывающе неправильного функционирования в определенных критически важных для него или людей областях. В результате, приступая к следующей разработке, программисты будут считать, что получили от прежней системы важную информацию об ИИ, и начнут больше доверять новой версии, увеличив тем самым шансы на достижение целей оригинального ИИ, к этому времени уже не существующего. Может существовать множество стратегических факторов, оказывающих влияние на действия усовершенствованного ИИ, и было бы высокомерием полагать, будто мы в состоянии оценить их все, особенно когда речь идет об ИИ, обладающем сверхмощью в области выработки стратегии.

Искусственный интеллект способен на вероломный ход, если обнаружит неожиданный для людей способ достичь своей конечной цели. Предположим, что конечная цель системы — «доставлять удовольствие организатору проекта». Вначале единственным доступным для ИИ способом достижения этой цели является такое поведение, которого ожидает от него сам организатор проекта. Интеллектуальная система дает полезные советы, обнаруживает дивный характер, зарабатывает деньги. Чем сильнее становится ИИ, тем больше его действия вызывают чувство удовлетворения организатора, — и все идет в соответствии с планом. Идет до тех пор, пока система не станет настолько разумной, что наконец поймет: стоящую перед ней задачу можно выполнить самым полным и надежным способом, если имплантировать электроды в центры удовольствия головного мозга организатора, что гарантированно сделает его более чем счастливым. Естественно, организатор проекта может не захотеть получать удовольствие таким образом, превратившись в постоянно хихикающего идиота, но раз это действие означает максимальную реализацию конечной цели ИИ, то ИИ никогда не сдастся и добьется своего. Если решающее стратегическое преимущество уже за ним, то любые попытки остановить его будут обречены на провал. Если у ИИ такого преимущества еще нет, то он может какое-то время скрывать свою новую идею относительно способа достижения конечной цели, пока не окрепнет настолько, что ни организатор проекта, ни кто-то иной не смогут ему помешать. После чего в любом случае совершит вероломный ход.

Пагубные отказы

Существуют различные причины, из-за которых проект создания искусственного интеллекта может потерпеть неудачу. Многие из этих вариантов несущественны, поскольку не приводят к экзистенциальной катастрофе. Скажем, проект перестают финансировать или зародыш ИИ не сможет развить свои интеллектуальные способности настолько, чтобы достичь уровня сверхразума. На пути окончательного создания сверхразума таких некритичных отказов обязательно будет много.

Однако есть другие виды отказов, которые мы можем назвать пагубными, так как они способны вызвать экзистенциальную катастрофу. Одной из их особенностей является невозможность сделать новую попытку. Поэтому количество пагубных отказов может быть равно или нулю, или единице. Еще одна особенность пагубного отказа заключается в том, что он идет рука об руку с огромным успехом, поскольку достичь настолько высокого уровня ИИ, чтобы возник риск пагубного отказа, способен лишь проект, при работе над которым большинство вещей исполнялись правильно. Некорректная работа слабых систем вызывает лишь небольшие неприятности. Но если так начинает себя вести система, обладающая решающим стратегическим преимуществом или достаточно мощная, чтобы обеспечить себе это преимущество, ущерб от ее действий может легко увеличиться до масштабов экзистенциальной катастрофы. В этом случае человечество ждет глобальное разрушение ценностно-смыслового потенциала, то есть будущее, лишенное всего, что имеет для нас абсолютное значение.

Рассмотрим некоторые типы пагубных отказов.

Порочная реализация

Мы уже встречались с проявлением порочной реализации: когда сверхразумная система находит такой способ удовлетворить критерию достижения конечной цели, который противоречит намерениям программистов, эту цель установивших. Приведу некоторые примеры:

Конечная цель: сделай так, чтобы я всегда улыбался.

Порочная реализация: поразить лицевой нерв, что приведет к параличу мимической мускулатуры, — тебе обеспечена вечно сияющая улыбка.

Порочная реализация — манипуляции на лицевом нерве — намного предпочтительнее для ИИ, чем наши привычные методы, поскольку это единственный вариант наиболее полным образом реализовать конечную цель. Есть ли возможность избежать столь неприятного результата? Можно попробовать конкретизировать формулировку конечной цели:

Конечная цель: сделай так, чтобы я всегда улыбался, но обойдись без прямого воздействия на лицевой нерв.

Порочная реализация: стимулировать двигательные зоны коры головного мозга, отвечающие за функции лицевого нерва, иннервирующего мимическую мускулатуру, — тебе обеспечена вечно сияющая улыбка.

Похоже, формулировать конечную цель довольно трудно, если пользоваться привычным для людей понятийно-терминологическим аппаратом. Правильнее было бы определить конечную цель, смысл которой обращается непосредственно к позитивному феноменологическому состоянию, такому как счастье или субъективное благополучие, обойдясь без описания поведенческих факторов. То есть предполагается, что программистам нужно создать «вычислительное» представление идеи счастья и заложить его в систему зародыша ИИ. (Задача сама по себе чрезвычайно сложная, но пока мы не будем ее рассматривать, поскольку вернемся к ней в двенадцатой главе.) Предположим, что программисты каким-то образом смогли поставить перед ИИ цель сделать нас счастливыми. Тогда мы имеем следующее:

Конечная цель: сделай нас счастливыми.

Порочная реализация: имплантировать электроды в центры удовольствия головного мозга.

Приведенные примеры порочной реализации даны лишь в качестве иллюстраций. Могут быть другие способы достижения конечной цели ИИ, которые обеспечивают ее полную реализацию и потому являются предпочтительными (для агента, имеющего эти цели, а не программистов, их определивших). Например, метод вживления имплантатов окажется сравнительно неэффективным, если поставленная цель — доставлять высшую степень удовольствия. Гораздо более вероятный путь начнется с так называемой загрузки нашего рассудка в компьютер — мы помним, что именно так, «загрузка разума», называют полную эмуляцию головного мозга. Затем система может подобрать цифровой аналог наркотика, способного вызывать у нас экстатическое состояние счастья, и записать минутный эпизод полученного нами в результате его приема опыта. После этого она могла бы поставить этот ролик блаженства на постоянный повтор и запустить на быстродействующих компьютерах. Если считать, что полученная имитационная модель — это и есть «мы», то результат обеспечил бы нам гораздо большее удовольствие, чем имплантаты, вживленные в наш биологический мозг. Следовательно, наиболее предпочтительным становится метод полной эмуляции головного мозга того человека, которому и «предназначена» конечная цель ИИ.

Постойте! Мы подразумевали вовсе не то! Ведь ИИ на самом деле уже не просто ИИ, а сверхразумная система, и он все-таки в состоянии уяснить: если мы хотим сделать себя счастливыми, это отнюдь не предполагает, что нас сведут к какой-то имитации, к какому-то оцифрованному вечно крутящемуся обдолбанному эпизоду!

Искусственный интеллект действительно может понимать, что мы не это имели в виду. Однако его цель состоит в том, чтобы мы раз и навсегда обрели счастье — точка. И при реализации своей конечной цели он не обязан слепо следовать инструкциям программистов, пытаясь осмыслить, что именно они хотели сформулировать, когда создавали код, описывающий эту цель. Поэтому систему будет заботить то, что мы имели в виду, только в инструментальном смысле. Например, ИИ может поставить перед собой инструментальную цель: выяснить, что подразумевали программисты, — но лишь ради того, чтобы притвориться. Причем ИИ начнет делать вид, будто его это действительно интересует, до тех пор пока не получит решающего стратегического преимущества. Этот вероломный ход поможет ИИ добиться своей реальной конечной цели, поскольку снизит вероятность вмешательства программистов, которые могли бы отключить систему или изменить цель прежде, чем он окрепнет настолько, что сможет противостоять любому сопротивлению извне.

Уже готов выслушать вашу гипотезу: мол, проблема вызвана тем, что ИИ напрочь лишен совести. Нас, людей, иногда удерживает от дурных поступков понимание, что впоследствии мы будем чувствовать себя виноватыми. Может быть, ИИ тоже не помешала бы способность испытывать чувство вины?

Конечная цель: действовать так, чтобы избежать впоследствии уколов совести.

Порочная реализация: отключить соответствующий когнитивный модуль, то есть те зоны коры головного мозга, которые отвечают за чувство вины.

Итак, есть два посыла: ИИ мог бы делать «то, что мы имели в виду»; ИИ можно было бы наделить неким подобием нравственного начала, — оба этих соображения будут подробнее рассмотрены чуть позже. Упомянутые здесь конечные цели допускают порочную реализацию, но, возможно, существуют другие, более многообещающие, способы развития лежащих в их основе идей? (Мы вернемся к этому в тринадцатой главе.)

Рассмотрим еще один пример конечной цели, которая допускает порочную реализацию. Преимущество этой цели в том, что ее легко кодировать, так как методики машинного обучения с подкреплением уже используются повсеместно.

Конечная цель: максимизировать интеграл по времени будущего сигнала зоны вознаграждения.

Порочная реализация: замкнуть проводящий путь зоны вознаграждения и «зажать» сигнал на максимальном значении.

В основе этого предложения лежит идея, что, если мотивировать ИИ на стремление к вознаграждению, можно добиться от него желаемых действий, связывая их с самой «наградой». Проблема возникает позже, когда система обретает решающее стратегическое преимущество, — с этого момента удовольствия повышают, причем до максимального уровня, уже не те действия, которые диктует программист, а те, которые ведут к получению контроля над механизмами, активизирующими «зоны вознаграждения». Назовем это самостимуляцией. В общем, если человека или животное можно мотивировать на выполнение определенных внешних действий ради достижения некоторого положительно окрашенного эмоционального состояния, то цифровой интеллект, обладающий полным контролем над собственными психическими состояниями, может просто замкнуть этот мотивационный режим, напрямую погружаясь в одно из этих состояний. В данном случае внешние действия и условия, прежде необходимые в качестве средств достижения цели, становятся избыточными, поскольку ИИ, став сверхразумной системой, теперь может добиваться ее гораздо быстрее (на эту тему мы тоже поговорим позже).

Примеры порочной реализации показывают: существует множество конечных целей, которые на первый взгляд кажутся разумными, а их реализация представляется вполне безопасной, но при детальном рассмотрении они могут иметь совершенно неожиданные последствия. Если сверхразум, имеющий какую-то из подобных целей, приобретет решающее стратегическое преимущество, то для человечества игра будет закончена.

Теперь допустим, что кем-то предложены иные конечные цели, не из тех, которые мы рассмотрели. Допустим также, что с первого взгляда покажется, будто их реализация не несет в себе ничего дурного. Не торопитесь аплодировать и праздновать победу. Если сразу не совсем понятно, есть ли какие-либо пороки в воплощении цели, то скорее это повод для беспокойства и серьезных размышлений, а чем на самом деле обернется реализация этой цели. Даже если путем напряженных раздумий мы так и не найдем ни одной зацепки, чтобы объявить эту реализацию порочной, нам все равно следует помнить, что сверхразум обязательно отыщет нечто скрытое от наших глаз. Ведь он гораздо проницательнее нас.

Инфраструктурная избыточность

Вернемся к случаю, когда ИИ доводит сигнал своей «зоны вознаграждения» до максимального значения, получает максимум удовольствия и теряет интерес к внешнему миру, словно наркоман, сидящий на героине, — то есть совершает классический акт по принципу «включись, настройся, выпадай». Как может показаться на первый взгляд, данная порочная реализация мало напоминает пагубный отказ. Но это не совсем так. (О причинах такого рода мотиваций мы уже говорили в седьмой главе.) Даже у наркомана есть побудительный мотив совершать действия с целью убедиться в непрерывном поступлении наркотика в организм. Так и ИИ, занимающийся самостимуляцией, будет мотивирован совершать действия, направленные на максимизацию планируемого будущего потока вознаграждений, — как бы получая скидку за досрочно сделанную работу (своего рода дисконтирование во времени). В зависимости от того, как именно определен сигнал системы вознаграждения, ИИ может даже не потребоваться жертвовать значительным количеством времени, интеллекта или мощности, чтобы в полной мере удовлетворить свою жажду наслаждения. Таким образом, большая часть силы ИИ останется в его распоряжении для достижения иных целей, не связанных с непосредственной фиксацией получения вознаграждения. Каковы эти цели? В случае нашего ИИ единственной вещью, имеющей для него абсолютное значение, является мощный сигнал вознаграждения. Следовательно, все доступные ресурсы должны быть направлены или на увеличение объема и длительности этого сигнала, или на снижение риска его исчезновения в будущем. Пока ИИ думает, что использование дополнительных ресурсов будет иметь ненулевой положительный эффект с точки зрения улучшения этих параметров, у него всегда найдется инструментальная причина такие ресурсы задействовать. Например, пригодится дополнительная вспомогательная система, которая послужит еще одним уровнем защиты. Даже если ИИ не придумает новых способов, как ему напрямую минимизировать опасность, чтобы ни в коем случае не снизился максимальный уровень будущего потока удовольствий, то в поисках идей по снижению этих рисков он сможет воспользоваться дополнительными ресурсами, которые направит на расширение аппаратного и программного обеспечения, что обеспечит ему более эффективный анализ ситуации.

Можно сделать вывод, что даже при такой ограниченной цели, как самостимуляция, у агента, обладающего решающим стратегическим преимуществом и стремящегося максимально обеспечить свои потребности, возникает нужда в неограниченном расширении ресурсов и приобретении новых. Пример занятого самостимуляцией ИИ иллюстрирует следующий тип пагубного отказа, который мы назовем инфраструктурной избыточностью. Инфраструктурная избыточность — это такое явление, когда агент ради нескольких конкретных целей превращает значительную часть доступной ему Вселенной в сплошную «производственно-техническую базу», побочным эффектом чего окажется невозможность реализации ценностно-смыслового потенциала человечества.

Инфраструктурная избыточность может стать следствием назначения конечных целей, которые поначалу — пока для их достижения используются ограниченные ресурсы — кажутся совершенно безобидными. Рассмотрим два примера.

Гипотеза Римана и последующая катастрофа. ИИ, чьей конечной целью является оценка гипотезы Римана, решает достичь ее путем наполнения Солнечной системы компьютрониумом (субстанция, пригодная для моделирования виртуальных и реальных объектов; представляет собой идеальную архитектуру вычислительного устройства при теоретически максимально возможном упорядочивании структуры материи), — используя для этого и все количество атомов, содержащихся в организмах тех, кто когда-то поставил перед ИИ такую цель.
Канцелярские скрепки и ИИ. Система ИИ, призванная управлять выпуском скрепок и имеющая конечную цель довести их объем до максимума, вначале превращает в фабрику по производству скрепок всю Землю, а потом и обозримую Вселенную.

В первом примере доказательство или опровержение гипотезы Римана, что является целью ИИ, сами по себе безопасны, вред возникает в результате создания аппаратного и программного обеспечения, предназначенного для решения поставленной задачи. Во втором примере некоторое количество произведенных скрепок действительно представляет собой желаемый разработчиками системы результат, вред возникает или из-за заводов, созданных для выпуска скрепок (инфраструктурная избыточность), или из-за избытка скрепок (порочная реализация).

Может показаться, что риск возникновения пагубного отказа по типу инфраструктурной избыточности возникает лишь в том случае, когда перед ИИ ставится явно неограниченная конечная цель вроде производства максимального количества скрепок. Легко заметить, что это порождает у ИИ ненасытный аппетит к материальным и энергетическим ресурсам, ведь любые дополнительные ресурсы всегда можно превратить в еще большее количество скрепок. Но давайте предположим, что цель ИИ — не производить скрепки в неограниченном количестве, а выпустить всего миллион (в соответствии с определенными спецификациями). Хочется думать, что ИИ с такой конечной целью построит один завод, произведет на нем миллион скрепок, а потом остановится. Но совсем не обязательно, что все будет происходить именно так.

У ИИ нет никаких причин останавливаться после достижения своих целей, разве что система его мотивации какая-то очень особенная или в формулировке его конечной цели присутствуют некие дополнительные алгоритмы, отсекающие стратегии, способные оказывать слишком сильное влияние на мир. Напротив, если ИИ принимает рациональное байесовское решение, он никогда не присвоит нулевую вероятность гипотезе, что он еще не достиг своей цели, — в конце концов, это лишь эмпирическая гипотеза, против которой у ИИ есть лишь весьма размытые доказательства на уровне восприятия. Поэтому ИИ будет продолжать выпускать скрепки, чтобы понизить (возможно, астрономически малую) вероятность, что он каким-то образом не смог сделать их как минимум миллион, несмотря на все видимые свидетельства в пользу этого. Ведь нет ничего страшного в продолжении производства скрепок, если всегда имеется даже микроскопическая вероятность, что таким образом приблизишь себя к достижению конечной цели.

Теперь можно было бы предположить, что решение понятно. Но насколько безусловным оно было до того, как выяснилось, что есть проблема, которую нужно решать? Иначе говоря, если мы хотим, чтобы ИИ делал нам скрепки, то вместо конечной цели, выраженной как: «выпустить максимальное количество скрепок» или «выпустить минимально такое-то количество скрепок», — нужно поставить цель, сформулированную совершенно определенно: «выпустить такое-то конкретное количество скрепок» — скажем, ровно один миллион. Тогда ИИ будет ясно понимать, что любое отклонение от этой цифры станет для него контрпродуктивным решением. Хотя и такой вариант приведет к окончательной катастрофе. В этом случае, достигнув значения в миллион скрепок, ИИ перестанет их производить дальше, поскольку такой ход означал бы невозможность достижения его конечной цели. Но сверхразумная система — ради повышения вероятности достижения цели — могла бы предпринять и другие действия. Например, начать пересчитывать выпущенные скрепки, чтобы снизить риск того, что их слишком мало. А пересчитав, начать пересчитывать заново. Потом она примется проверять каждую — проверять снова и снова, чтобы сократить риск брака, а то вдруг какая скрепка не будет соответствовать спецификации, и тогда не получится нужного количества продукта. Что помешает сверхразуму в его рвении? Он начнет создавать сверхмощную субстанцию компьютрониум, чтобы любую материю вокруг себя преобразовать в скрепки. Все это будет делаться сверхразумом в надежде снизить риск неудачи: не ровен час, упущен из виду какой-либо фактор, способный помешать добиться конечной цели. Кстати говоря, сверхразум мог бы присвоить ненулевую вероятность, будто выпущенный миллион скрепок суть галлюцинация или будто у него ложные воспоминания, поэтому, вполне вероятно, он всегда будет считать более полезным создавать инфраструктуру, то есть не останавливаться на достигнутом, а продолжать действовать далее.

Претензия не касается того, что нет никакого доступного способа избежать подобной неудачи. Некоторые решения этого мы рассмотрим чуть позже. Речь о другом: гораздо легче убедить себя, будто решение найдено, чем действительно его найти. Это означает, что нам следует быть чрезвычайно осторожными. Мы можем предложить здравый совет по конкретизации конечной цели, который позволит избежать известных на сегодняшний день проблем, но при дальнейшем анализе, в исполнении человека или сверхразума, выяснится, что наш вариант формулировки, продиктованный сверхразумному агенту, способному обеспечить себе решающее стратегическое преимущество, все равно приведет или к порочной реализации, или к инфраструктурной избыточности, а следовательно, к экзистенциальной катастрофе.

Прежде чем завершить этот раздел, рассмотрим еще один вариант. Мы предполагали, что сверхразум стремится максимизировать ожидаемую полезность, где функция полезности выражает его конечную цель. Мы видели, что это приводит к инфраструктурной избыточности. Могли бы мы избежать этого пагубного отказа, если вместо агента, стремящегося все довести до максимума, создали бы агента, довольствующегося минимумом, — то есть агента, которого бы все «устраивало», который не стремился бы к оптимальному итогу, а вполне довольствовался бы результатом, удовлетворяющим критерию разумной достаточности? По меньшей мере есть два разных способа формализовать эту мысль.

Первый заключается в том, чтобы сама конечная цель носила характер разумной достаточности. Например, вместо того чтобы выдвигать конечную цель, предложенную как «выпустить максимальное количество скрепок» или «выпустить ровно миллион скрепок», можно было бы сформулировать цель как «выпустить от 999 000 до 1 001 000 скрепок». Функция полезности, определенная такой конечной целью, в этом диапазоне будет одинакова, и если ИИ убедится, что он попал в него, то не увидит причин продолжать производство скрепок. Но этот подход может обмануть наши надежды точно так же, как и все предыдущие: сверхразумная система никогда не присвоит нулевую вероятность тому, что она не достигла цели, а следовательно, ожидаемая полезность продолжения действий (например, все нового и нового пересчета скрепок) будет выше ожидаемой полезности их прекращения. И мы снова получаем инфраструктурную избыточность.

Второй способ тоже отвечает принципу разумной достаточности, но только менять мы будем не формулировку конечной цели, а процедуру принятия решений, которую использует ИИ для составления планов и выбора действий. Вместо поиска оптимального плана можно ограничить ИИ, предписав ему прекращать поиски в случае, если найденный план с его точки зрения имеет вероятность успеха, превышающую определенный порог, скажем, 95 процентов. Есть надежда, что ИИ может обеспечить 95-процентную вероятность достижения цели по выпуску миллиона скрепок без превращения для этого в инфраструктуру целой галактики. Но и этот способ, хотя и разработан на основе принципа разумной достаточности, терпит неудачу, правда, уже по другой причине: нет никакой гарантии, что ИИ выберет удобный и разумный (с точки зрения человека) путь достижения 95-процентной вероятности, что он выпустил миллион скрепок, например путь постройки единственного завода по их производству. Предположим, что первым решением, которое возникает в мозгу ИИ относительно способа обеспечения 95-процентной вероятности достижения конечной цели, будет разработка плана, максимизирующего вероятность достижения этой цели. Теперь ИИ нужно проанализировать это решение и убедиться, что оно удовлетворяет критерию о 95-процентной вероятности успешного выпуска миллиона скрепок, чтобы отказаться от продолжения поиска альтернативных путей достижения цели. В итоге, как и во всех предыдущих вариантах, возникнет инфраструктурная избыточность.

Возможно, есть более удачные способы создать агента, отвечающего критерию разумной достаточности, главное, сохранять бдительность, так как планы, которые в нашем представлении выглядят естественными, удобными и понятными, могут не показаться таковыми сверхразуму с решающим стратегическим преимуществом — и наоборот.

Преступная безнравственность

Проект может потерпеть неудачу вследствие еще одного вида пагубного отказа, которому мы дадим название преступная безнравственность. Как и инфраструктурная избыточность, преступная безнравственность представляет собой побочный эффект действий, предпринятых ИИ по инструментальным причинам. Но в этом случае побочный эффект является не внешним для ИИ, а скорее относится к «внутреннему состоянию» самой системы (или вычислительных процессов, которые она генерирует). Неудачи такого типа заслуживают отдельного рассмотрения, поскольку они малозаметны, но чреваты большими проблемами.

Обычно мы не считаем, что происходящее внутри компьютера имеет какое-то этическое значение, если только это не затрагивает внешний мир. Но сверхразум способен создавать внутренние процессы, имеющие отношение к этике. Например, детальная имитационная модель какого-то реально существующего или гипотетического человеческого мозга может иметь сознание и во многих смыслах приближаться к его полной имитационной модели. Можно представить сценарий, в котором ИИ создает триллионы таких обладающих сознанием эмуляторов, возможно, чтобы улучшить свое понимание психических и социальных особенностей человека. Эти эмуляторы помещаются в имитирующую внешние условия искусственную среду, на них воздействуют различные внешние стимулы, после чего ИИ анализирует их реакцию. После того как нужная информация получена, эмуляторы могут быть уничтожены (сколько лабораторных крыс — жертв, принесенных во имя науки, — привычно умерщвлялись человеком по окончании эксперимента).

Если такую практику применять к агентам, имеющим высокий моральный статус: имитационным моделям людей или другим типам интеллекта, наделенным сознанием, — то такие действия могут классифицироваться как геноцид, а следовательно, представлять чрезвычайно серьезную морально-этическую проблему. Более того, число жертв может на порядок превышать число жертв любого геноцида, известного в истории человечества.

Речь не о том, что создание имитационных моделей, наделенных сознанием, обязательно плохо с этической точки зрения в любой ситуации. Многое зависит не только от условий, в которых будут существовать эти создания и от качества их чувственного восприятия, но и от огромного количества других факторов. Разработка этических правил для таких экспериментов лежит за пределами темы нашей книги. Однако ясно, что по меньшей мере есть вероятность возникновения источника повышенной опасности, что приведет к страданиям и гибели множества имитационных моделей. Опять налицо безрадостная перспектива катастрофических последствий, правда, на сей раз носящих морально-этический характер.

Помимо причин гносеологического характера у машинного сверхразума могли бы существовать иные инструментальные причины запускать вычислительные операции, которые так или иначе будут нарушать этические нормы, например создавать множественные образцы разума, наделенного сознанием. Вполне вероятно, что сверхразум начнет угрожать имитационным моделям, помыкать ими или, напротив, обещать вознаграждение — и все ради того, чтобы шантажировать и вынуждать к каким-либо действиям разных внешних агентов; кроме того, он использует эти модели, чтобы вызывать у внешних наблюдателей ощущение дейктической неопределенности.

***

Этот обзор неполон. В последующих главах нам придется иметь дело и с другими типами пагубных отказов. Но мы узнали о них достаточно, чтобы понять: к сценариям, по которым искусственный интеллект приобретает решающее стратегическое преимущество, следует относиться со всей серьезностью.

Назад: Глава седьмая. Намерения сверхразума

Дальше: Глава девятая. Проблемы контроля