Компьютеры и го

Книга: Машина, платформа, толпа. Наше цифровое будущее

Людям всегда было трудно научиться хорошо играть в го, а научить этому компьютер казалось и вовсе невозможным.

Игра го построена на чистой стратегии, в ней нет места везению. Она была создана в Китае минимум 2500 лет назад. Играют в нее два человека: один белыми камнями, другой черными, — по очереди выставляя их на пересечения линий решетки размером 19 × 19 (пунктов). Если группа камней или один камень лишаются всех точек свободы, то есть незанятых соседних пунктов по горизонтали и вертикали — а такое, как правило, происходит, когда они оказываются окружены камнями противоположного цвета, — то считаются захваченными и снимаются с доски. Побеждает игрок, который захватил большую территорию.

Те, кому нравится стратегия, любят и го. Конфуций говорил, что «благородные мужи не должны тратить время на простые игры — они должны изучать го». Во многих кругах го ставят выше, чем шахматы — сложную стратегическую игру для двух человек, победа в которой не зависит от удачи. Гроссмейстер Эдуард Ласкер заметил: «Тогда как вычурные правила шахмат могли быть созданы только людьми, правила го настолько элегантны, органичны и строго логичны, что иные разумные формы жизни, если они существуют где-то во Вселенной, почти наверняка играют в эту игру».

Очевидная простота игры скрывает сложность, которую даже трудно осознать. Большая доска и широкий выбор мест, куда можно ставить камни, приводят к числу 2 × 10¹⁷⁰ (к двойке со 170 нулями) — столько в го позиций. Насколько велико это число? Вот вам очень приблизительный ориентир. Наблюдаемая Вселенная содержит примерно 10⁸² атомов. Если бы каждый из них стал Вселенной размером с нашу, то число возможных позиций в го по-прежнему было бы больше, чем количество атомов во всех этих вселенных.

ИГРА, КОТОРУЮ НИКТО НЕ В СИЛАХ ОБЪЯСНИТЬ

Каким образом лучшие мастера го ориентируются в безумной сложности игры и делают хорошие ходы? Никто не знает, даже сами игроки. Они изучили некоторый набор эвристических приемов и стараются их придерживаться. Но этим все и ограничивается — даже мастера часто затрудняются объяснить свою стратегию. Майкл Редмонд, один из немногих игроков неазиатского происхождения, достигших высшего ранга в игре, поясняет: «Я вижу ход и уверен в его правильности, но я не могу сказать вам точно, как я это узнаю. Я просто вижу».

Дело не в том, что игроки в го косноязычны. Просто у всех нас нет полного доступа к собственным знаниям. Когда мы распознаем чье-то лицо или едем на велосипеде, мы не способны четко объяснить, как и почему делаем то или другое. Трудно изложить скрытое знание. Такое состояние прекрасно описал Майкл Полани: «Мы знаем больше, чем способны рассказать».

Парадокс Полани, назовем его так, был серьезным препятствием для всех, кто попытался построить компьютер, играющий в го. Как написать программу, основанную на оптимальных стратегиях игры, когда никто из людей не в силах сформулировать стратегии? Можно запрограммировать некоторые эвристические правила, но это не обеспечит победу над сильными игроками, выходящими за их рамки, но не способными объяснить, как они это делают.

Чтобы ориентироваться в сложных средах, например во всех возможных позициях игры го, разработчики часто опираются на моделирование. Они пишут программы, которые делают ход, выглядящий хорошим, затем исследуют все разумные ответы противника на него, все разумные ответы на каждый такой ответ и так далее. В конечном счете обычно выбирается тот ход, что обеспечивает больше всего хороших вариантов и меньше всего плохих. Однако из-за того, что существует такое огромное количество возможных партий в го — так много вселенных, ими полных, — у вас получится смоделировать ничтожно малую их долю, будь у вас хоть цех, полный суперкомпьютеров.

Вследствие недоступности ключевых знаний и неэффективного моделирования прогресс у программистов, занимавшихся го, шел медленно. Давая характеристику нынешней ситуации с компьютерами, играющими в го, и ожидаемым перспективам, профессор философии Алан Левиновиц заключил в мае 2014 года в журнале Wired: «Может оказаться, что появление в течение десяти лет компьютера-чемпиона — слишком оптимистичный прогноз». Статья в Wall Street Journal, написанная в декабре 2015 года профессором психологии Крисом Чабрисом, ведущим в журнале колонку об играх, называлась «Почему го по-прежнему не дается компьютерам».

ПРЕОДОЛЕНИЕ ПАРАДОКСА ПОЛАНИ

В научной статье, опубликованной буквально в следующем номере Wall Street Journal (в январе 2016 года), рассказывалось о компьютере, который уже нельзя одурачить. Группа из лондонской компании DeepMind, принадлежащей Google и специализирующейся на машинном обучении (эту область искусственного интеллекта мы обсудим в главе 3), опубликовала статью «Освоение игры го с помощью нейронных сетей и поиска по дереву», и престижный журнал Nature сделал ее темой номера. Статья описывала программу AlphaGo, которую создатели научили играть в го, обойдя парадокс Полани.

Они не пытались напичкать программу лучшими стратегиями и эвристическими правилами. Вместо этого они создали систему, самообучающуюся в ходе анализа игровых позиций во множестве партий. AlphaGo должна была замечать в большом количестве данных мельчайшие паттерны и связывать действия игроков, например постановку камня на конкретное место, с результатами, скажем с выигрышем.

Дав программе доступ к тридцати миллионам позиций, записанных в онлайновом хранилище, ей, по сути, сказали: «Используй их и выясни, как выигрывать». AlphaGo также сыграла множество партий против самой себя, сгенерировав еще 30 миллионов позиций, которые затем проанализировала. Во время игры система вела моделирование, однако весьма узкое: она использовала знания, полученные от изучения миллионов позиций, чтобы моделировать только те ходы, которые, по ее мнению, вели к победе с наибольшей вероятностью.

Работа над AlphaGo началась в 2014 году. К октябрю 2015 года она была готова к тестированию. AlphaGo — какое-то время это держалось в тайне — сыграла матч из пяти партий с Фань Хуэем, который тогда был чемпионом Европы, и выиграла со счетом 5:0.

Победа компьютера в го на таком высоком уровне, оказавшаяся для всех неожиданной, произвела впечатление на сообщество ученых и разработчиков в области искусственного интеллекта. Практически все аналитики и комментаторы назвали достижение AlphaGo настоящим прорывом. Однако начались споры о масштабе победы. Нейробиолог Гэри Маркус заметил: «В Европе го едва ли является спортом, и этот чемпион занимает в мировом рейтинге всего 633-е место. Победу робота над 633-м в рейтинге профессиональным теннисистом тоже назвали бы впечатляющим достижением, однако неверно было бы говорить, что он достиг мастерства в игре».

Команда DeepMind, очевидно, сочла замечание справедливым, поскольку бросила вызов Ли Седолю, предложив сыграть матч из пяти партий в Сеуле в марте 2016 года. Многие считали Седоля лучшим игроком в го на планете и одним из лучших, которых помнят современники. Его стиль характеризовали как «интуитивный, непредсказуемый, творческий, напряженный, неистовый, запутанный, глубокий, стремительный, спонтанный». Эти качества, по мнению самого Седоля, давали ему преимущество перед любым компьютером. Он говорил: «В игре го есть красота, и я не думаю, что машины ее понимают… Я считаю, что человеческая интуиция слишком совершенна, чтобы искусственный интеллект мог достичь чего-то подобного». Седоль предположил, что выиграет минимум четыре партии из пяти, заметив: «Что касается матча в октябре, мне кажется, что уровень AlphaGo не соответствует моему».

Партии между Седолем и AlphaGo привлекли огромное внимание общественности в Корее и других странах Восточной Азии. AlphaGo выиграла первые три партии, обеспечив себе победу во всем матче. Седоль взял верх в четвертой встрече. Его победа дала кое-кому из наблюдателей надежду, что человеческий ум обнаружил недостатки цифрового противника, которые Седоль мог бы использовать в дальнейшем. Если это и было правдой, то все равно не помогло Седолю в следующей партии. AlphaGo снова выиграла, завершив матч со счетом 4:1 в свою пользу.

Седоль счел матч изматывающим и после поражения сказал: «Я ощущаю своего рода бессилие… У меня огромный опыт игры в го, но никогда не было случая, чтобы я чувствовал такой напор со стороны противника».

Новые технологии обошли мастеров го.

Назад: Глава 1. Тройная революция

Дальше: Что случилось с активами?