Кривая обучения никогда не обрывается
Давайте на время забудем о людях и подумаем о стратегиях. В конце концов, то, что происходит в игре на самом деле, сводится к стратегиям, которые, независимо от их интеллектуальной мощи, используются всеми участниками, будь то человек, искусственный интеллект или группа сидящих за компьютером обезьян. Для исследования процессов, происходящих в сложных играх с участием людей, можно использовать компьютеры. Компьютеры не устают и не просят оплаты. Несколько лет назад эту идею реализовали физики Тобиас Галла и Дойн Фармер, которые решили использовать компьютеры для проведения системного анализа поведения «интеллектуальных агентов» в условиях постепенно усложняющейся игры.
Конечно, компьютеры не умеют делать многое из того, что люди проделывают с легкостью, например, узнавать своих знакомых или разбираться в сложных лингвистических структурах. Но когда дело доходит до быстрого распознавания относительно простых паттернов, компьютеры часто справляются с этой задачей лучше, чем люди. Ученый-компьютерщик Дэйв Клифф из Университета Бристоля разработал несколько поколений компьютерных торговых алгоритмов, которые систематически одерживают верх над живыми трейдерами в игре друг против друга. Для этого они используют набор очень простых правил. Однако, помимо этого, они умеют еще и очень быстро учиться на своих ошибках. Рост популярности алгоритмических торговых систем на финансовых рынках, а в настоящее время на их долю приходится свыше 50 % всех биржевых сделок, отражает уверенность крупнейших трейдерских компаний в том, что Клифф и его коллеги абсолютно правы, когда говорят, что компьютеры способны торговать не хуже людей.
Преимущество компьютеров перед людьми состоит в том, что они способны обрабатывать сотни тысяч вариантов очень быстро, изменяя характер игры, чтобы увидеть, как различные уровни сложности влияют на поведение игроков в долгосрочной перспективе. В ходе каждого из своих экспериментов Галла и Фармер заставляли двух компьютерных игроков – их назвали Алиса и Боб – конкурировать друг с другом. Каждый из них мог делать выбор из N возможных стратегий. В теории игр условия игры определяются набором пар чисел, показывающих, какую оплату может получить каждый из двух игроков, выбирая ту или иную стратегию. Эти цифры позволяли Алисе и Бобу определить результат для каждого доступного для них варианта действий. Анализируя эти цифры, Алиса и Боб принимали решение о выборе стратегии своей игры.
А теперь поговорим о том, в чем заключалась оригинальная идея Галлы и Фармера. Для эксперимента они могли бы выбрать определенную игру, одну из тысяч хорошо изученных в теории игр. Но в этом случае полученные результаты относились бы только к этой конкретной игре или ей подобным. Чтобы получить более общий результат, ученые выбирали игры случайным образом, отбирая каждый раз одно из чисел в списке пар на основе кривой нормального распределения (более подробно описанной в первой главе), при этом большинство из выбираемых чисел располагались вокруг нулевого значения в диапазоне от –1 до +1. После этого оба компьютера включались в игру по сформированным наборам. Каждый из них начинал со случайных догадок, но был запрограммирован таким образом, чтобы быстро обучаться и чаще использовать такие стратегии, которые хорошо зарекомендовали себя в предыдущих раундах игры. В сущности, компьютеры выявляли закономерности методом проб и ошибок.
Ученые-программисты знают, что такие обучающиеся алгоритмы при игре в довольно простые игры с малым количеством возможных стратегий, то есть при N=2, 3 или 4, очень быстро находят стратегии, подводящие их к равновесию по Нэшу, и часто начинают играть более рационально, чем реальные люди. Но в более сложных играх, как обнаружили Галла и Фармер, дело обстоит совершенно иначе. При N=50 алгоритмам не удавалось определить более-менее гарантированный путь к победе даже за очень долгое время. Конечно, в обычных условиях ни один из игроков не выигрывал постоянно; иногда побеждала Алиса, в других случаях лучший результат демонстрировал Боб. После множества попыток оба игрока имели примерно одинаковое количество побед. При этом в результатах игр не прослеживалось никакой системы. Иногда Боб выигрывал в течение длительного периода, прежде чем Алисе удавалось изменить ситуацию. В совокупности полученные результаты представляли собой непрерывный хаос из непредсказуемых событий, не укладывающихся в какой-либо паттерн.
Важно отметить, что сама по себе теория игр предусматривает возможность того, что результаты игр будут существенно различаться. Джон Нэш доказал, что всем конечным играм свойственно равновесие по Нэшу (имеется в виду не то, что живые игроки или компьютеры, как правило, приходят к этому состоянию, а лишь возможность такого исхода). Однако такое равновесие может оставаться стабильными и неизменным во времени. В качестве примера можно привести шахматную доску, на которой к концу долгой игры осталось лишь два короля. Эти короли, которые по правилам игры не должны оказываться на соседних клетках, никогда не смогут выявить победителя, они могут лишь бесконечно продолжать бесцельный танец. Этот результат сильно отличается от результатов, полученных Галла и Фармером. Пока игра продолжается, интеллектуальные агенты находятся в поиске оптимальных стратегий, и довольно часто кому-то из них удается на некоторое время завладеть преимуществом. Он выигрывает несколько партий подряд, пока противник не находит способ исправить ситуацию. Процесс обучения и соперничества может продолжаться бесконечно, и при этом ни один игрок не сможет выработать финальную беспроигрышную стратегию. Высокая степень сложности игры делает невозможным достижение такого результата.
Данное исследование приводит нас к важному выводу: в достаточно сложных играх представления, вытекающие из теории равновесия, не позволят вам узнать, что, скорее всего, произойдет в реальности. Одурманивающее понятие о равновесии по Нэшу имеет весьма отдаленное отношение к сложным играм. Более вероятно, что участники таких игр вообще никогда не придут к равновесию, а процесс эволюции стратегического поведения просто затянется на неопределенный срок. Как заключили Галла и Фармер, «Стратегии игры постоянно изменяются, пока каждый игрок реагирует на сложившиеся обстоятельства и пытается добиться лучшего результата, чем другие игроки. Траектории в стратегическом пространстве указывают на наличие многомерного хаоса, означающего, что в большинстве случаев поведение, направленное на достижение поставленных целей, является в основном случайным, а эволюция зачастую носит непредсказуемый характер».
Не менее показательным, конечно, является тот факт, что богатая, сложная, непрерывная динамика этих игр сильно напоминает то, с чем человек сталкивается в реальных системах, в том числе на финансовых рынках с их периодами относительного спокойствия, перемежающимися приступами крайней нестабильности. Однако, как и в примере с горкой рисовых зерен, приведенном в предыдущей главе, нет ничего, что можно было бы обоснованно считать причиной этих перепадов финансового настроения. Они являются следствием совершенно естественной внутренней динамики. И это в игре всего лишь с 50 возможными стратегиями. Если же их число вырастет до 100, 1000 или 10 тыс. или если в игре будет участвовать большее количество игроков, как это происходит на финансовых рынках, ситуация, скорее всего, станет еще более хаотичной и непредсказуемой.
Вывод состоит в том, что динамика сложных игр имеет важное значение для моделирования, и она не может быть представлена исключительно на теоретическом уровне, хотя упертые экономисты могут попытаться это сделать. В конце концов, равновесие – это способ анализа системы, допускающий, будто время не имеет значения. Если мы собираемся выяснить, каким образом можно эффективно моделировать рынки, анализ игр с очень высокой степенью сложности выглядит в этом отношении как перспективный путь.