ГЛАВА 7. Игры с одновременными ходами: смешанные стратегии - Стратегические игры - Авинаш Диксит, Сьюзан Скит и Дэвид Рейли-младший - RutLib.com

Назад: ГЛАВА 6. Сочетание последовательных и одновременных ходов

Дальше: Приложение. Вероятность и ожидаемая полезность

7 Игры с одновременными ходами: смешанные стратегии

В ходе анализа игр с одновременными ходами в мы столкнулись с целым классом игр, нерешаемых посредством описанных там методов. Дело в том, что в играх этого класса нет равновесий Нэша в чистых стратегиях, и для того чтобы определить исход таких игр, необходимо расширить концепции стратегии и равновесий. Это можно сделать с помощью рандомизации ходов, которая и будет в центре внимания в данной главе.

Рассмотрим игру в . Это игра с нулевой суммой, в которой интересы двух теннисисток прямо противоположны. Эверт стремится направить обводящий удар в любую сторону — по линии (ПЛ) или по диагонали (ПД), — не прикрытую Навратиловой, тогда как Навратилова старается прикрыть именно ту сторону, в которую Эверт сделает удар. В мы отметили, что в такой ситуации Навратилова сможет использовать любой системный выбор Эверт себе на пользу, а значит, во вред Эверт. Со своей стороны, Эверт может использовать любой системный выбор Навратиловой. Для того чтобы этого избежать, каждая теннисистка пытается держать соперницу в неведении с помощью бессистемных или случайных действий.

Однако хаотичность действий не означает выбора каждого типа удара в половине случаев или их чередование. Чередование ударов уже само по себе было бы системным действием, которое можно использовать, поэтому случайная комбинация действий в соотношении 60 на 40 или 75 на 25 (в зависимости от ситуации) может быть лучше, чем 50 на 50. В данной главе мы рассмотрим методы расчета наилучшей комбинации ходов, а также обсудим, как эта теория поможет нам понять фактический ход таких игр.

Наш метод вычисления лучшей комбинации применим также к играм с ненулевой суммой. Однако в них интересы игроков частично совпадают, поэтому когда игрок Б использует системный выбор игрока А с выгодой для себя, это не всегда вредит игроку А. Следовательно, в играх с ненулевой суммой логика действий, согласно которой другого игрока следует держать в неведении, более слабая или вообще отсутствует. Мы поговорим о том, имеют ли равновесия в смешанных стратегиях смысл в таких играх и когда именно это происходит.

Начнем главу с анализа смешивания стратегий в играх два на два, а также с самого прямого метода поиска наилучших ответов и равновесия в смешанных стратегиях. Многие концепции и методы, которые мы сформулируем в , сохранят свою актуальность и в более общих играх, а в и их область применения распространится на игры, участники которых могут иметь свыше двух чистых стратегий. В конце мы выскажем ряд общих наблюдений по поводу смешивания стратегий на практике, а также приведем некоторые эмпирические данные о том, присутствует ли такое смешивание стратегий в реальной жизни.

1. Что такое смешанная стратегия

Когда игроки предпочитают действовать бессистемно, они делают случайный выбор из имеющихся чистых стратегий. В игре в розыгрыш очка в теннисе Навратилова и Эверт выбирают одну из двух заданных чистых стратегий, ПЛ или ПД. Мы называем случайную комбинацию этих двух стратегий смешанной стратегией.

Такие смешанные стратегии охватывают целый диапазон непрерывных значений. На одном его конце вариант ПЛ может быть выбран с вероятностью 1 (гарантированно), тогда как вариант ПД не будет выбран никогда (вероятность 0); эта комбинация представляет собой чистую стратегию ПЛ. На другом конце диапазона вариант ПЛ может быть выбран с вероятностью 0, а ПД — с вероятностью 1; данная комбинация представляет собой чистую стратегию ПД. В промежутке между ними находится целое множество возможностей: ПЛ выбирается с вероятностью 75% (0,75), а ПД — 25% (0,25); или оба варианта выбираются с вероятностью 50% (0,5) каждый; или вариант ПЛ выбирается с вероятностью 1/3 (33,33…%), а ПД — 2/3 (66,66…%) и т. д.

Выигрыши, полученные в результате применения смешанной стратегии, определяются как соответствующие значения взвешенного по вероятности среднего выигрышей от чистых стратегий, входящих в состав данной смешанной стратегии. Например, в игре в теннис из (против стратегии ПЛ Навратиловой) выигрыш Эверт от стратегии ПЛ равен 50, а от стратегии ПД 90. Следовательно, ее выигрыш от смешанной стратегии (0,75 ПЛ, 0,25 ПД) в игре против стратегии ПЛ Навратиловой составит 0,75 × 50 + 0,25 × 90 = 37,5 + 22,5 = 60. Это и есть ожидаемый выигрыш Эверт от данной смешанной стратегии.

Вероятность выбора той или иной чистой стратегии — это непрерывная переменная с диапазоном значений от 0 до 1. Стало быть, смешанные стратегии — просто особый тип непрерывно меняющихся стратегий наподобие тех, которые мы изучали в . Каждая чистая стратегия — это предельный частный случай, в котором вероятность ее выбора равна 1.

Понятие равновесия Нэша также можно расширить, включив в него смешанные стратегии. Равновесие Нэша определяется как совокупность стратегий (по одной на каждого игрока), при которой выбор каждого игрока для него наилучший с точки зрения обеспечения его максимального ожидаемого выигрыша с учетом смешанных стратегий других игроков. Допустимость использования в игре смешанных стратегий автоматически и практически полностью решает проблему возможного отсутствия равновесия Нэша, с которой мы столкнулись в случае чистых стратегий. Знаменитая теорема Нэша показывает, что при самых общих условиях (достаточно широких, чтобы охватывать все игры, рассматриваемые в данной книге, и многие другие) равновесие Нэша в смешанных стратегиях существует всегда.

Таким образом, на самом обобщенном уровне включение смешанных стратегий в наш анализ не подразумевает ничего выходящего за пределы общей теории непрерывных стратегий, сформулированной в . Тем не менее частный случай смешанных стратегий действительно поднимает ряд особых концептуальных и методологических вопросов, поэтому заслуживает специального изучения.

2. Смешивание ходов

Начнем с примера игры в теннис из , в которой не было равновесия Нэша в чистых стратегиях, и покажем, как расширение этой концепции на смешанные стратегии позволяет устранить данный недостаток, а также объясним полученное в итоге равновесие как равновесие, при котором каждый игрок держит соперника в неведении.

А. Преимущество смешивания ходов

На рис. 7.1 воспроизведена матрица выигрышей, представленная на . В этой игре, если Эверт будет всегда выбирать удар по линии (ПЛ), Навратилова будет прикрывать ПЛ и удерживать выигрыш Эверт на уровне 50. Точно так же, если Эверт будет всегда выбирать удар по диагонали (ПД), Навратилова будет удерживать выигрыш Эверт на уровне 20. Если Эверт может выбирать только одну из двух базовых (чистых) стратегий, а Навратилова — спрогнозировать ее выбор, то более подходящая (или менее неподходящая) стратегия Эверт — ПЛ, обеспечивающая ей выигрыш 50.

Рис. 7.1. Отсутствие равновесия в чистых стратегиях

Но допустим, Эверт не ограничена выбором только чистых стратегий и может применить смешанную стратегию, возможно, именно ту, в соответствии с которой вероятность того, что она выберет ПЛ в каком бы то ни было случае, составляет 75%, или 0,75, что означает, что вероятность того, что она выберет ПД, равна 25%, или 0,25. С помощью метода, представленного в , можно рассчитать ожидаемый выигрыш Навратиловой при выборе Эверт такой комбинации стратегий. Он составляет:

0,75 × 50 + 0,25 × 10 = 37,5 + 2,5 = 40, если она прикроет ПЛ,
0,75 × 20 + 0,25 × 80 = 15 + 20 = 35, если она прикроет ПД.

Если Эверт выберет комбинацию стратегий 75 на 25, ожидаемые выигрыши показывают, что Навратилова может использовать эту комбинацию с максимальной выгодой для себя, прикрыв удар ПЛ.

Когда Навратилова выбирает ПЛ, чтобы наилучшим образом использовать комбинацию Эверт 75 на 25, это наносит Эверт ущерб, поскольку перед нами игра с нулевой суммой. Ожидаемые выигрыши Эверт составляют:

0,75 × 50 + 0,25 × 90 = 37,5 + 22,5 = 60, если Навратилова прикроет ПЛ,
0,75 × 80 + 0,25 × 20 = 60 + 5 = 65, если Навратилова прикроет ПД.

Выбрав ПЛ, Навратилова удержит выигрыш Эверт на уровне 60, а не 65. Но заметьте, что выигрыш Эверт при такой комбинации стратегий все равно лучше выигрыша 50 в случае использования чистой стратегии ПЛ или 20 при выборе чистой стратегии ПД.

Комбинация стратегий в соотношении 75 на 25 позволяет Эверт повысить выигрыш по сравнению с выигрышем в чистых стратегиях, однако все же оставляет стратегию Эверт в какой-то степени открытой для того, чтобы Навратилова использовала ее с выгодой для себя. Решив прикрывать удар ПЛ, она может добиться того, что Эверт получит более низкий выигрыш, чем при выборе стратегии ПД. Эверт хотела бы найти комбинацию стратегий, защищенную от использования, то есть такую, при которой у Навратиловой не было бы очевидного варианта чистой стратегии, которую можно было бы применить против данной стратегии Эверт. Комбинация стратегий Эверт, защищенная от использования, должна обладать свойством, обеспечивающим Навратиловой один и тот же ожидаемый выигрыш, какой бы удар она ни прикрывала, ПЛ или ПД: Навратиловой должно быть безразлично, какую из двух имеющихся чистых стратегий выбрать. Мы называем это свойством безразличия соперника, и, как мы увидим ниже в данной главе, это ключ к равновесиям в смешанных стратегиях в ненулевых играх.

Для поиска комбинации стратегий, защищенной от использования соперником, необходимо применить более общий подход к описанию смешанной стратегии Эверт, чтобы алгебраическим путем рассчитать вероятности чистых стратегий, входящих в соответствующую смешанную стратегию. Обозначим вероятность выбора Эверт ПЛ алгебраическим символом p, тогда вероятность выбора ПД будет 1 – p. Для краткости назовем такую совокупность p-комбинацией.

Если Эверт выберет р-комбинацию, ожидаемые выигрыши Навратиловой составят:

50p + 10(1 – p), если она прикроет ПЛ,
20p + 80(1 – p), если она прикроет ПД.

Для стратегии Эверт, чтобы ее р-комбинация была защищена от использования, два выигрыша Навратиловой должны быть равны, то есть 50p + 10(1 – p) = 20p + 80(1 – p), или 30p = 70(1 – p), или 100p = 70, или p = 0,7. Таким образом, в комбинации стратегий Эверт, защищенной от использования, стратегия ПЛ применяется в 70% случаев, а ПД — в 30% случаев. При таких вероятностях, заданных смешанной стратегией, Навратилова получит один и тот же ожидаемый выигрыш за счет каждой из своих чистых стратегий, а значит, не сможет использовать ни одну из них с выгодой для себя (или в ущерб Эверт в игре с нулевой суммой). Ожидаемый выигрыш Эверт от смешанной стратегии составит:

50 × 0,7 + 90 × 0,3 = 35 + 27 = 62, если Навратилова прикроет ПЛ,
80 × 0,7 + 20 × 0,3 = 56 + 6 = 62, если Навратилова прикроет ПД.

Этот ожидаемый выигрыш лучше выигрыша 50, который Эверт получила бы при использовании чистой стратегии ПЛ, и выигрыша 60, полученного в случае комбинации 75 на 25. Теперь мы знаем, что эта смешанная стратегия защищена от использования, но является ли она оптимальной или равновесной стратегией Эверт?

Б. Наилучшие ответы и равновесие

Для того чтобы найти равновесную комбинацию стратегий в этой игре, вернемся к методу анализа наилучших ответов, описанному в , и расширим его на игры с непрерывными стратегиями наподобие тех, которые представлены в . Наша первоочередная задача — определить наилучший ответ Эверт (ее наилучший выбор вероятности p) на каждую из возможных стратегий Навратиловой. Поскольку эти стратегии также могут быть смешанными, их можно описать посредством вероятности того, что она прикроет ПЛ. Обозначим эту вероятность как q; тогда 1 – q — вероятность того, что Навратилова прикроет ПД. Назовем смешанную стратегию Навратиловой «q-комбинация» и попытаемся найти наилучший ответ Эверт p в случае выбора Навратиловой каждого возможного значения q.

Из таблицы выигрышей на следует, что р-комбинация Эверт обеспечивает ей такой ожидаемый выигрыш:

50p + 90(1 – p), если Навратилова выберет ПЛ,
80p + 20(1 – p), если Навратилова выберет ПД.

Стало быть, в случае q-комбинации Навратиловой ожидаемый выигрыш Эверт составит:

[50p + 90(1 – p)]q + [80p + 20(1 – p)](1 – q).

Перегруппировав члены выражения, получаем следующую формулу вычисления ожидаемого выигрыша Эверт:

[50q + 80(1 – q)]p + [90q + 20(1 – q)] (1 – p) = [90q + 20(1 – q)] + [50q + 80(1 – q) – 90q – 20(1 – q)]p = [20 + 70q] + [60 – 100q]p.

Используем этот ожидаемый выигрыш для поиска значений наилучших ответов p Эверт.

Мы пытаемся определить значение p, максимизирующее выигрыш Эверт при каждом значении q, поэтому основной вопрос состоит в том, как формула расчета ожидаемого выигрыша зависит от p. Здесь важную роль играет коэффициент перед p: [60 – 100 q]. В частности, имеет значение положительный он (тогда ожидаемый выигрыш Эверт увеличивается по мере увеличения p) или отрицательный (тогда ожидаемый выигрыш Эверт уменьшается по мере увеличения p). Очевидно, что знак этого коэффициента зависит от значения q, причем q имеет критическое значение в случае, когда 60 – 100q = 0; то есть q равно 0,6.

Когда при q < 0,6 Навратиловой коэффициент [60 – 100q] имеет положительное значение, ожидаемый выигрыш Эверт увеличивается по мере повышения значения p и ее наилучший выбор p = 1, или чистая стратегия ПЛ. Аналогичным образом при q > 0,6 Навратиловой наилучший выбор Эверт — p = 0, или чистая стратегия ПД. Если q = 0,6, Эверт получит один и тот же ожидаемый выигрыш независимо от значения p; при этом любая комбинация стратегий ПЛ и ПД так же эффективна, как и любая другая: любое значение p в диапазоне от 0 до 1 может быть наилучшим ответом. Кратко сформулируем эти выводы, для того чтобы использовать их в будущем.

Если q < 0,6, наилучший ответ p = 1 (чистая стратегия ПЛ).
Если q = 0,6, любая p-комбинация будет наилучшим ответом.
Если q > 0,6, наилучший ответ p = 0 (чистая стратегия ПД).

Для быстрого подтверждения этих интуитивных выводов заметим, что при низком значении q (Навратилова с достаточно низкой вероятностью будет прикрывать удар ПЛ) Эверт следует выбрать ПЛ, а при высоком значении q (Навратилова с достаточно высокой вероятностью будет прикрывать удар ПЛ) — ПД. Точное значение этой «достаточности», а значит, и точка перехода на другую стратегию q = 0,6 зависят от конкретных выигрышей в данном примере.

Мы уже говорили о том, что смешанные стратегии — это просто особый тип непрерывной стратегии, в которой вероятность играет роль непрерывной переменной. Теперь мы нашли наилучшее значение p Эверт, соответствующее каждому значению q, выбранному Навратиловой. Иными словами, определили правило наилучших ответов Эверт, которое можно отобразить на графике так же, как мы это делали в .

Этот график расположен в левом фрагменте рисунка 7.2, где значения q показаны на горизонтальной оси, а значения p — на вертикальной. Обе вероятности ограничены диапазоном от 0 до 1. Если q меньше 0,6, p имеет максимальное значение 1; если q больше 0,6, p имеет минимальное значение 0. При q = 0,6 все значения p от 0 до 1 в равной степени наилучшие для Эверт, поэтому наилучший ответ — вертикальная линия, находящаяся между 0 и 1. Этому графику наилучших ответов присуща своя особенность: в отличие от непрерывно восходящих или нисходящих прямых или кривых линий в , данный график плоский в двух интервалах значений q и опускается за один шаг в точке сопряжения этих интервалов. Тем не менее в концептуальном смысле он ничем не отличается от любого другого графика наилучших ответов.

Рис. 7.2. Наилучшие ответы и равновесие в игре в теннис

Аналогичным образом можно вычислить правило наилучших ответов Навратиловой (ее наилучшую q-комбинацию, соответствующую каждой из p-комбинаций Эверт). Мы предлагаем вам сделать это самостоятельно, чтобы закрепить понимание самой концепции и алгебраических вычислений. Кроме того, вы должны проверить правильность интуитивных выводов в отношении выбора Навратиловой так, как мы это делали для Эверт. Мы же просто приведем здесь полученный результат.

Если p < 0,7, наилучший ответ q = 0 (чистая стратегия ПД).
Если p = 0,7, любая q-комбинация будет наилучшим ответом.
Если p > 0,7, наилучший ответ q = 1 (чистая стратегия ПЛ).

График этого правила наилучших ответов Навратиловой расположен в среднем фрагменте .

В правом фрагменте объединены графики из двух соседних фрагментов, причем левый график отражен по диагонали (линия p = q) с тем, чтобы значения p оказались на горизонтальной оси, а значения q — на вертикальной, после чего совмещен со средним графиком. Теперь серые и черные линии пересекаются в одной точке, где p = 0,7, а q = 0,6. В этой точке выбор смешанной стратегии каждым игроком будет наилучшим ответом на выбор другого игрока, поэтому данная пара образует равновесие Нэша в смешанных стратегиях.

В таком представлении правил наилучших ответов чистые стратегии — особые случаи, соответствующие предельным значениям переменных p и q. Как видим, графики наилучших ответов не имеют общих точек на любой из сторон квадрата, где каждое значение p и q равно либо 0, либо 1. Это говорит об отсутствии в игре равновесий в чистых стратегиях, как и было показано в . В этом примере равновесие в смешанных стратегиях — единственное равновесие Нэша в данной игре.

С помощью метода, примененного нами в для поиска защищенного от использования значения p для Эверт, вы также можете вычислить выбор Навратиловой значения q, защищенного от использования. Выполнив соответствующие расчеты, получите значение q = 0,6. Таким образом, две выбранные участницами игры смешанные стратегии, защищенные от использования, на самом деле и наилучшие ответы друг на друга, которые представляют собой смешанные стратегии двух игроков, образующие равновесие Нэша.

В действительности, чтобы найти равновесие в смешанных стратегиях в игре с нулевой суммой, каждый участник которой располагает двумя чистыми стратегиями, не нужно проходить весь процесс определения правил наилучших ответов, построения соответствующих графиков и поиска точки их пересечения. Вы можете просто записать уравнения защищенности от использования из по комбинации каждого игрока, а затем решить их. Если в полученном решении обе вероятности попадают в диапазон от 0 до 1, вы нашли то, что нужно. Если одна из вероятностей имеет отрицательное значение или значение больше 1, значит, в данной игре нет равновесия в смешанных стратегиях и вам необходимо снова поискать его в чистых стратегиях. В и представлен анализ методов решения игр, участники которых имеют более двух чистых стратегий.

3. Равновесие Нэша как система убеждений и ответов

При одновременном выполнении ходов ни один из игроков не может отреагировать на фактический выбор другого игрока. Вместо этого каждый участник игры предпринимает свое наилучшее действие, исходя из представлений о том, какой именно ход выбирает в данный момент соперник. В мы назвали такие представления убеждениями игрока относительно выбора стратегии другим игроком, затем интерпретировали равновесие Нэша как конфигурацию стратегий, при которой эти убеждения верны, а значит, каждый игрок выбирает свой наилучший ответ на фактические действия другого игрока. Эта концепция оказалась весьма полезной для понимания структуры и исхода многих важных типов игр, особенно таких, как дилемма заключенных, координационные игры и игра в труса.

Однако в мы рассматривали исключительно равновесия Нэша в чистых стратегиях. По этой причине осталось почти незамеченным одно скрытое предположение: каждый игрок твердо убежден, что другой игрок выберет определенную чистую стратегию. Теперь, когда мы анализируем более общие смешанные стратегии, концепция убеждения требует новой интерпретации.

Порой игроки не уверены в предполагаемых действиях других участников игры. Так, в , в которой Гарри хочет встретиться с Салли, Гарри не уверен в том, куда отправится Салли — в Starbucks или Local Latte, и его убеждение может сводиться к тому, что она окажется в любом из этих кафе с вероятностью 50 на 50. А в Эверт могла осознавать, что Навратилова пытается держать ее в неведении, а значит, она (Эверт) не может быть уверена в том, какое из доступных действий выберет Навратилова. В мы обозначили такую ситуацию термином «стратегическая неопределенность», а в указали, что такая неопределенность приводит к формированию равновесий в смешанных стратегиях. Теперь же рассмотрим эту идею более подробно.

Однако важно различать неуверенность и неправильные убеждения. Скажем, в примере с игрой в теннис Навратилова не может быть уверена в том, что выберет Эверт в каждом конкретном случае. Тем не менее у нее могут быть правильные убеждения относительно комбинации стратегий Эверт, а именно вероятности, с которой она выбирает между своими двумя чистыми стратегиями. Наличие правильных убеждений по поводу смешанных действий означает знание, или вычисление, или догадки в отношении правильных вероятностей, с которыми другой игрок делает выбор между своими базовыми или чистыми стратегиями. Что касается равновесия в нашем примере, оказалось, что равновесная комбинация стратегий Эверт составила 70% для ПЛ и 30% для ПД. Если Навратилова убеждена в том, что Эверт выберет ПЛ с вероятностью 70% и ПД с вероятностью 30%, то ее убеждения в данном равновесии будут правильными, хотя и неопределенными.

Таким образом, у нас есть альтернативный и математически эквивалентный способ определения равновесия Нэша в категориях убеждений: каждый игрок формирует убеждения о вероятностях в той комбинации стратегий, которую применяет другой игрок, и выбирает на нее собственный наилучший ответ. Равновесие Нэша в смешанных стратегиях наблюдается в случае правильности этих убеждений в указанном нами смысле.

В следующем разделе мы рассмотрим смешанные стратегии и соответствующие равновесия Нэша в играх с ненулевой суммой. В таких играх нет общих оснований для того, чтобы стремление другого игрока удовлетворить собственные интересы противоречило вашим интересам. Следовательно, в таких играх вам далеко не всегда нужно скрывать свои намерения от другого игрока, а также нет причин держать его в неведении. Тем не менее из-за одновременного выполнения ходов каждый игрок может испытывать субъективную неуверенность относительно действий другого игрока, поэтому у него могут быть неопределенные убеждения, вынуждающие его сомневаться в целесообразности собственных действий. Все это может привести к формированию равновесий в смешанных стратегиях, а их интерпретация в категориях субъективно неопределенных, но правильных убеждений играет особенно важную роль.

4. Смешивание стратегий в играх с ненулевой суммой

Методы поиска равновесий в смешанных стратегиях в играх с нулевой суммой (такие как защищенность от использования соперником или свойство безразличия соперника) применимы и к играм с ненулевой суммой, причем в некоторых из них действительно позволяют найти равновесия в смешанных стратегиях. Однако в таких играх интересы игроков могут в определенной степени совпадать. Следовательно, тот факт, что другой игрок использует ваш системный выбор стратегий с выгодой для себя, необязательно означает, что это нанесет ущерб вам, как в случае игр с нулевой суммой. Например, в , игроки способны лучше координировать свои действия, если каждый из них может полагаться на системные действия другого, поскольку случайный выбор действий только повышает риск неудачи с их координацией. Именно поэтому в играх с ненулевой суммой равновесия в смешанных стратегиях имеют слабое логическое обоснование или не имеют его вообще. Ниже мы проанализируем равновесия в смешанных стратегиях в контексте некоторых известных игр с ненулевой суммой, а также обсудим их значимость или отсутствие таковой.

А. Встретятся ли Гарри и Салли? Доверие, чистая координация и битва полов

Проиллюстрируем смешивание стратегий в играх с ненулевой суммой на примере игры «встреча», основанной на игре в доверие. Для вашего удобства мы воспроизводим таблицу этой игры (см. ) на рис. 7.3. Сначала проанализируем игру с точки зрения Салли. Если она уверена в том, что Гарри отправится в Starbucks, ей тоже следует туда пойти. Если она уверена, что Гарри выберет Local Latte, то же самое нужно сделать и ей. Но если Салли сомневается в выборе Гарри, то каким должен быть ее наилучший выбор?

Рис. 7.3. Игра в доверие

Чтобы ответить на этот вопрос, мы должны дать более четкую трактовку неопределенности в понимании Салли. (В теории вероятностей и статистике есть специальный термин для обозначения такой неопределенности — субъективная неопределенность. В контексте неопределенности относительно действий другого игрока это стратегическая неопределенность; вспомните о различиях, которые мы анализировали в ). Для большей точности укажем, с какой вероятностью Гарри выберет то или иное кафе, по мнению Салли. Вероятность того, что это будет Local Latte, может быть выражена любым вещественным числом от 0 до 1 (то есть от 0% до 100%). Мы охватим все возможные варианты с помощью алгебраических формул, обозначив символом p вероятность того, что Гарри (по мнению Салли) выберет Starbucks; переменная p может иметь любое вещественное значение в диапазоне от 0 до 1. Тогда (1 – p) — это вероятность (снова по мнению Салли) того, что Гарри предпочтет Local Latte. Иными словами, мы описываем стратегическую неопределенность Салли следующим образом: она считает, что Гарри использует смешанную стратегию, применив совокупность двух чистых стратегий (Starbucks и Local Latte) в пропорциях или с вероятностью p и (1 – p) соответственно. Назовем эту смешанную стратегию p-комбинацией Гарри, хотя на данный момент это всего лишь идея, существующая в сознании Салли.

С учетом этой неопределенности Салли может вычислить ожидаемые выигрыши от своих действий, предпринятых на основании убежденности в отношении р-комбинации Гарри. Если Салли выберет Starbucks, это даст ей 1 × p + 0 × (1 – p) = p, если Local Latte, это даст 0 × p + 2 × (1 – p) = 2 × (1 – p). Когда p имеет высокое значение, p > 2(1 – p), то есть Салли достаточно уверена в том, что Гарри отправится в Starbucks, ей лучше пойти туда же. Точно так же, когда p имеет низкое значение, p < 2(1 – p), а значит, Салли достаточно уверена в том, что Гарри отправится в Local Latte, ей тоже нужно пойти в это кафе. При p = 2(1 – p), или 3p = 2, или p = 2/3 эти два варианта выбора обеспечивают Салли один и тот же выигрыш. Следовательно, если она убеждена в том, что p = 2/3, она может быть не уверена в собственном выборе и колебаться между этими двумя вариантами.

Понимание этого факта может вызвать у Гарри неуверенность в выборе Салли. Следовательно, Гарри также испытывает субъективную стратегическую неопределенность. Предположим, он считает, что Салли выберет Starbucks с вероятностью q, а Local Latte с вероятностью (1 – q). Аналогичные рассуждения показывают, что Гарри следует выбрать Starbucks, если q > 2/3, и Local Latte, если q < 2/3. В случае если q = 2/3, ему будет безразлично, какое из этих двух действий предпринять, и у него возникнет неуверенность в собственном выборе.

Теперь у нас есть основа для равновесия в смешанных стратегиях с p = 2/3 и q = 2/3. При таком равновесии данные значения p и q одновременно являются и фактическими вероятностями чистых стратегий, входящих в соответствующую смешанную стратегию, и субъективными убеждениями каждого игрока относительно вероятностей чистых стратегий в смешанной стратегии другого игрока. Правильность этих убеждений поддерживает собственное безразличие каждого игрока в отношении выбора между двумя чистыми стратегиями, а значит, и готовность каждого смешать их. Это полностью соответствует концепции равновесия Нэша как системы самоисполняющихся убеждений и ответных действий, описанной в .

Ключ к поиску равновесия в смешанных стратегиях состоит в том, что Салли готова смешать две чистые стратегии только тогда, когда ее субъективная неопределенность в отношении выбора Гарри правильна, то есть если правильно значение р в р-комбинации Гарри. Алгебраически это утверждение можно обосновать посредством вычисления равновесного значения р с помощью уравнения р = 2(1 – р), которое гарантирует, что Салли получит такой же ожидаемый выигрыш от двух своих чистых стратегий при сопоставлении каждой из них с р-комбинацией Гарри. Если данное равенство справедливо в случае равновесия, вероятности чистых стратегий в смешанной стратегии Гарри как будто поддерживают безразличие Салли. Мы особо подчеркиваем сочетание «как будто», поскольку в этой игре у Гарри нет причин поддерживать безразличие Салли, поэтому полученный результат — просто свойство данного равновесия. Тем не менее общая идея такова: в равновесии Нэша в смешанных стратегиях вероятности чистых стратегий, входящих в смешанную стратегию каждого игрока, поддерживают безразличие другого игрока в отношении выбора между его чистыми стратегиями. Мы вывели свойство безразличия соперника выше в ходе обсуждения игр с нулевой суммой, а теперь видим, что оно актуально и для игр с ненулевой суммой.

Однако в игре в доверие равновесие в смешанных стратегиях имеет ряд весьма нежелательных свойств. Во-первых, оно обеспечивает обоим игрокам достаточно низкие ожидаемые выигрыши. Формулы расчета ожидаемых выигрышей Салли от двух ее действий, р и 2 (1 – р), в обоих случаях равны 2/3 при р = 2/3. Точно так же ожидаемые выигрыши Гарри в случае равновесной q-комбинации Салли при q = 2/3 также одинаковы и составляют 2/3. Следовательно, при равновесии в смешанных стратегиях каждый игрок получает выигрыш 2/3. В мы нашли в этой игре два равновесия в чистых стратегиях, причем даже худшее из них (оба выбирают Starbucks) обеспечивает каждому игроку выигрыш 1, а лучшее (оба выбирают Local Latte) — выигрыш 2.

Причина, по которой в случае равновесия в смешанных стратегиях два игрока получают такие плохие результаты, состоит в следующем: при выборе игроками своих действий независимо и бессистемно достаточно высока вероятность того, что они отправятся в разные места и в результате не встретятся и оба получат выигрыш 0. Гарри и Салли не увидятся, если один из них пойдет в Starbucks, а другой в Local Latte или наоборот. Вероятность такого развития событий при использовании обоими равновесных комбинаций составляет 2 × (2/3) × (1/3) = 4/9. Аналогичная проблема наблюдается в равновесиях в смешанных стратегиях в большинстве игр с ненулевой суммой.

Второе нежелательное свойство равновесия в смешанных стратегиях — его неустойчивость. Если любой из игроков хотя бы немного отклонится от точных значений р = 2/3 или q = 2/3, наилучшим выбором другого игрока станет одна из чистых стратегий. И как только он ее применит, другой игрок получит более высокий выигрыш при выборе той же чистой стратегии, а значит, в игре наступит одно из двух равновесий в чистых стратегиях. Такая неустойчивость равновесий в смешанных стратегиях присуща многим играм с ненулевой суммой. Тем не менее в некоторых играх с ненулевой суммой все же есть более устойчивые равновесия в смешанных стратегиях. Один из примеров, описанный ниже в данной главе и в , — это равновесие в смешанных стратегиях в игре в труса, в отношении которой существует интересная эволюционная интерпретация.

С учетом результатов анализа равновесия в смешанных стратегиях в версии игры во встречу, основанной на игре в доверие, вы, по всей вероятности, теперь можете оценить равновесия в смешанных стратегиях в других вариантах игры во встречу с ненулевой суммой. В ее версии, построенной на чистой координации (см. ), выигрыш от встречи в двух кафе один и тот же, а значит, в равновесии в смешанных стратегиях значения p и q будут такими: p = 1/2 и q = 1/2. В варианте этой игры, представляющем собой битву полов (см. ), Салли предпочитает встретиться с Гарри в Local Latte, поскольку так она получит выигрыш 2 вместо 1 в случае встречи в Starbucks. Решение Салли зависит от того, больше или меньше 2/3 ее субъективная вероятность, что Гарри отправится в Starbucks. (В этом случае выигрыши Салли аналогичны выигрышам в версии игры в доверие, поэтому критическое значение p не меняется.) Гарри предпочитает встретиться в Starbucks, поэтому его решение зависит от того, больше или меньше 1/3 его субъективная вероятность, что Салли пойдет в Starbucks. Таким образом, при равновесии Нэша в смешанных стратегиях p = 2/3, а q = 1/3.

Б. Встретит ли Джеймс Дина? Игра в труса

В игре в труса с ненулевой суммой также существует равновесие в смешанных стратегиях, которое можно найти с помощью описанных выше методов, хотя у этой игры несколько иная интерпретация. Если вы помните, ее участники — Джеймс и Дин, пытающиеся избежать встречи. Таблица игры, первоначально представленная на , воспроизведена здесь на рис. 7.4.

Рис. 7.4. Игра в труса

Если применить в этой игре смешанные стратегии, то в p-комбинации Джеймса вероятность того, что он свернет в сторону, будет равна p, а вероятность того, что он поедет прямо, составит 1 – p. При такой p-комбинации Дин получит выигрыш 0 × p – 1 × (1 – p) = p – 1, выбрав вариант «свернуть», и 1 × p – 2 × (1 – p) = 3p – 2, предпочтя вариант «ехать прямо». При сравнении этих уравнений видно, что Дин получит более высокий выигрыш при выборе «свернуть», когда p – 1 > 3p – 2, или когда 2p < 1, или когда p < 1/2 — иными словами, когда p имеет малое значение и Джеймс с большей вероятностью выберет «ехать прямо». Напротив, когда у p высокое значение и Джеймс с большей вероятностью выберет «свернуть», Дину лучше «ехать прямо». Если в p-комбинации Джеймса значение p в точности равно 1/2, то Дину безразлично, какую из двух чистых стратегий применить; следовательно, он в равной мере готов их смешивать. Аналогичный анализ игры с точки зрения Джеймса в плане оценки его вариантов в игре против q-комбинации Дина дает те же результаты. Таким образом, p = 1/2 и q = 1/2 и есть равновесие в смешанных стратегиях в этой игре.

В свойствах этого равновесия присутствуют общие черты и различия с равновесиями в смешанных стратегиях в игре «встреча». Здесь ожидаемый выигрыш каждого игрока достаточно низкий: (−1/2). Это плохо, как и в случае игры во встречу, но в отличие от нее выигрыш при равновесии в смешанных стратегиях не хуже для обоих игроков, чем выигрыш при двух равновесиях в чистых стратегиях. В действительности, поскольку в данной игре интересы игроков в какой-то степени противоположны, каждый непременно получит более высокий выигрыш от равновесия в смешанных стратегиях, чем от равновесия в чистых стратегиях, подразумевающего выбор варианта «свернуть».

Однако такое равновесие в смешанных стратегиях тоже неустойчиво. Если Джеймс повысит вероятность применения варианта «ехать прямо» до значения чуть больше 1/2, это приведет к выбору Дином чистой стратегии «свернуть». В результате сочетание стратегий «ехать прямо» / «свернуть» становится равновесием в чистых стратегиях. Если Джеймс, наоборот, снизит вероятность выбора варианта «ехать прямо» до значения чуть меньше 1/2, Дин выберет вариант «ехать прямо» и игра снова перейдет к другому равновесию в чистых стратегиях.

В данном разделе мы нашли равновесия в смешанных стратегиях в нескольких играх с ненулевой суммой путем решения уравнений, вытекающих из свойства безразличия соперника. Из мы уже знаем, что в таких играх есть и равновесия в чистых стратегиях. Кривые наилучших ответов позволяют составить исчерпывающую картину, отобразив все равновесия Нэша одновременно. Поскольку вы уже ознакомились с ними в двух отдельных фрагментах книги, мы не будем тратить время и место на построение графиков, а просто подчеркнем, что при наличии двух равновесий в чистых стратегиях и одного в смешанных стратегиях (как в приведенных выше примерах) кривые наилучших ответов пересекаются в трех разных местах, по одному на каждое равновесие Нэша. В конце этой главы мы предложим вам самостоятельно построить графики наилучших ответов для аналогичных игр.

5. Общий анализ равновесий в смешанных стратегиях

Теперь, узнав, как найти равновесия в смешанных стратегиях в играх с нулевой и ненулевой суммой, целесообразно проанализировать дополнительные свойства этих равновесий. В частности, в данном разделе мы отметим ряд общих свойств равновесий в смешанных стратегиях, а также ознакомим вас с некоторыми результатами, которые поначалу покажутся вам парадоксальными, но лишь до тех пор, пока вы полностью не проанализируете рассматриваемую игру.

А. Равновесие в слабом смысле

Свойство безразличия соперника, о котором шла речь в , подразумевает, что в случае равновесия в смешанных стратегиях каждый игрок получает один и тот же ожидаемый выигрыш от каждой из двух своих чистых стратегий, а значит, получит один и тот же ожидаемый выигрыш и от любой их комбинации. Следовательно, равновесия в смешанных стратегиях — это равновесия Нэша только в слабом смысле. Когда один игрок выбирает свою равновесную комбинацию стратегий, у другого нет явных оснований отступать от своей равновесной комбинации. С другой стороны, этот игрок ничего бы не потерял, выбрав другую смешанную стратегию или даже одну из своих чистых стратегий. Каждому игроку безразлично, какую из чистых стратегий или их комбинацию выбрать, до тех пор, пока другой игрок разыгрывает свою правильную (равновесную) комбинацию.

На первый взгляд это сводит на нет принцип использования равновесия Нэша в смешанных стратегиях в качестве концепции решения игр. Зачем игроку выбирать соответствующую комбинацию стратегий, когда другой игрок применяет свою комбинацию? Почему бы не поступить проще, выбрав одну из чистых стратегий? Ведь ожидаемый выигрыш в обоих случаях тот же. Ответ состоит в том, что это не будет равновесием Нэша; такой исход игры не будет устойчивым, поскольку тогда другой игрок отклонится от своей комбинации стратегий. Предположим, Эверт говорит себе: «Когда Навратилова применит свою наилучшую комбинацию (q = 0,6), я получу один и тот же выигрыш от ПЛ, ПД или их любого сочетания. Так зачем же их смешивать? Почему бы просто не использовать ПЛ?» В таком случае Навратиловой выгоднее перейти к чистой стратегии прикрытия удара ПЛ. Аналогичным образом, если Гарри выберет чистую стратегию Starbucks в игре во встречу, основанной на доверии, то Салли может получить более высокий выигрыш в равновесии 1 вместо 2/3 благодаря переходу с комбинации 50 на 50 на чистую стратегию Starbucks.

Б. Парадоксальное изменение вероятностей чистых стратегий в смешанной стратегии в играх с нулевой суммой

Игры с равновесиями в смешанных стратегиях порой демонстрируют свойства, которые на первый взгляд могут казаться противоречащими здравому смыслу. Самое интересное из них — это изменение вероятностей чистых стратегий в равновесной смешанной стратегии, приводящее к изменению структуры выигрышей в соответствующей игре. Чтобы проиллюстрировать это, вернемся к Эверт и Навратиловой и их игре с розыгрышем очка в теннисе.

Предположим, Навратилова усовершенствует навыки прикрытия удара по линии до уровня, при котором результативность Эверт в использовании стратегии ПЛ против стратегии Навратиловой по прикрытию ПЛ сокращается с 50 до 30%. Такое улучшение мастерства Навратиловой обусловливает изменение таблицы выигрышей, в том числе смешанных стратегий каждой участницы игры, представленной на . Новая таблица игры отображена на рис. 7.5.

Рис. 7.5. Измененные выигрыши в игре в теннис

Единственное отличие от таблицы на наблюдается в верхней левой ячейке, где выигрыш Эверт 50 теперь составляет 30, а выигрыш Навратиловой 50 равен 70. Это изменение не приводит к игре с равновесием в чистых стратегиях, поскольку у ее участниц по-прежнему противоположные интересы: Навратилова все так же хочет, чтобы их выбор совпадал, а Эверт все так же необходимо, чтобы их выбор отличался. Так что мы все еще имеем игру, подразумевающую смешивание стратегий.

Но чем эти равновесные комбинации стратегий отличаются от рассчитанных в ? Многие могли бы заявить, что теперь, научившись очень хорошо прикрывать ПЛ, Навратилова должна делать это чаще. В основе таких рассуждений лежит предположение о том, что равновесная q-комбинация Навратиловой должна быть в большей степени смещена в сторону ПЛ, а ее равновесное значение q должно превышать рассчитанное значение 0,6.

Но при вычислении q-комбинации Навратиловой на основании условия о безразличии Эверт в отношении выбора между двумя чистыми стратегиями мы получим 30q + 80(1 – q) = 90q + 20(1 – q), или q = 0,5. Фактическое равновесное значение q (50%) связано с исходным значением q (60%) в прямо противоположном смысле по сравнению с интуитивными прогнозами многих людей.

Хотя на первый взгляд подобные интуитивные выводы кажутся вполне обоснованными, в них упущен один важный аспект теории стратегий: взаимодействие между двумя игроками. После изменения выигрышей Эверт также будет пересматривать свою равновесную комбинацию, а Навратилова должна учитывать как новую структуру выигрышей, так и поведение Эверт при определении своей новой комбинации стратегий. В частности, поскольку теперь Навратилова гораздо лучше прикрывает ПЛ, Эверт в своей смешанной стратегии чаще использует ПД. И чтобы противодействовать этому, Навратилова тоже чаще прикрывает ПД.

Это станет более очевидным после того, как мы вычислим новую комбинацию Эверт. Ее равновесное значение p должно обеспечивать равенство между ожидаемым выигрышем Навратиловой от прикрытия ПЛ, 30p + 90(1 – p), и ее ожидаемым выигрышем от прикрытия ПД, 80р + 20(1 – p). Таким образом, мы имеем уравнение 30p + 90(1 – p) = 80p + 20(1 – p), или 90 – 60p = 20 + 60p, или 120p = 70. Следовательно, значение p Эверт должно составлять 7/12, или 0,583 (58,3%). Сравнение этого нового равновесного значения p с рассчитанным в первоначальным значением 70% показывает, что Эверт существенно сократила количество использования ПЛ в ответ на повышение мастерства Навратиловой. С учетом такого поведения Эверт Навратиловой также лучше сократить частоту применения стратегии ПЛ. Теперь Эверт будет использовать с выгодой для себя любой другой выбор комбинации стратегий Навратиловой, особенно той, в которой предпочтительна стратегия ПЛ.

Означает ли это, что Навратилова совершенствовала навыки зря? Нет, но мы должны судить об этом не по частоте применения той или иной стратегии, а по итоговым выигрышам. Когда Навратилова использует свою новую равновесную комбинацию с q = 0,5, процент успеха Эверт при выборе любой из ее чистых стратегий составляет (30 × 0,5) + (80 × 0,5) = (90 × 0,5) + (20 × 0,5) = 55. Это меньше, чем процент успеха Эверт 62 в исходном примере. Следовательно, средний выигрыш Навратиловой также возрастает с 38 до 45, а значит, улучшение навыков прикрытия удара ПЛ действительно принесло ей пользу.

В отличие от парадоксального результата, который мы наблюдали при анализе стратегического ответа Навратиловой на изменение в структуре выигрышей, здесь мы видим, что этот ответ полностью соответствует интуитивным представлениям, если рассматривать его в свете ожидаемого выигрыша Навратиловой. На самом деле с точки зрения ожидаемых выигрышей ответы игроков на изменение структуры выигрышей просто не могут противоречить здравому смыслу, хотя стратегические ответы, как мы уже убедились, могут. Самый интересный аспект такого парадоксального результата стратегических ответов игроков — это сигнал, который он подает теннисистам и, в более общем плане, участникам стратегических игр. Этот результат эквивалентен утверждению, что Навратилова должна усовершенствовать навыки прикрытия удара по линии с тем, чтобы ей не пришлось использовать такое прикрытие слишком часто.

Далее мы представим еще более общий и неожиданный результат, обусловленный изменениями вероятностей применения чистых стратегий в смешанной стратегии. Условие безразличия соперника означает, что равновесные вероятности чистых стратегий в смешанной стратегии каждого игрока зависят исключительно от выигрышей другого игрока, а не от его собственных. Рассмотрим игру в доверие на . Предположим, выигрыш Салли от встречи в Local Latte увеличивается с 2 до 3, тогда как все остальные выигрыши не меняются. Теперь в случае p-комбинации Гарри Салли получит выигрыш 1 × p + 0 × (1 – p) = p, если выберет Starbucks, и 0 × p + 3 × (1 – p) = 3 – 3p, если Local Latte. Условие безразличия Салли выглядит так: p = 3 – 3p, или 4p = 3, или p = 3/4 по сравнению со значением 2/3, вычисленным нами выше для p-комбинации Гарри в исходной игре. Расчет условия безразличия Гарри остается прежним и дает результат q = 2/3 в случае равновесной стратегии Салли. Изменение выигрышей Салли меняет вероятности применения чистых стратегий в смешанной стратегии Гарри, а не Салли! В у вас будет возможность доказать истинность этого вывода в общей формулировке: доли чистых стратегий в равновесной смешанной стратегии игрока меняются не вследствие изменения его выигрышей, а только в случае изменения выигрышей его соперника.

В. Рискованный и безопасный выбор в играх с нулевой суммой

В спорте некоторые стратегии сравнительно безопасны; они не приводят к полной катастрофе, даже если соперник предвидит такой выбор, но и не позволяют добиться сверхрезультатов, если оказываются неожиданными для соперника. Другие стратегии достаточно рискованны; они обеспечивают блестящие результаты, если другая сторона к ним не готова, но терпят полное поражение, когда другая сторона готова. В американском футболе на третьем дауне, когда остается пройти один ярд, пробежка на середину поля — это безопасная стратегия, а длинный пас — рискованная. Здесь возникает интересный вопрос, поскольку порой в ситуациях «третий даун, один ярд» на кону стоит больше, чем в других подобных ситуациях. Например, начало игры с 10-ярдовой линии соперника гораздо сильнее влияет на возможное количество заработанных очков, чем ее старт с вашей собственной 20-ярдовой линии. Вопрос в том, следует ли вам чаще или реже прибегать к рискованным стратегиям в случае более высоких ставок, чем низких.

Для того чтобы представить это в более конкретном виде, проанализируйте вероятности успеха, представленные на рис. 7.6. (Обратите внимание, что тогда как в теннисе мы использовали проценты от 0 до 100, здесь мы используем вероятности от 0 до 1.) Безопасная игра команды нападения — пробежка; вероятность успешного первого дауна составляет 60%, если команда защиты ожидает пробежки, и 70%, если защита полагает, что будет пас. Рискованная игра команды нападения — пас, поскольку вероятность успеха в куда большей степени зависит от действий команды защиты; вероятность успеха равна 80%, если защита ожидает пробежки, и всего 30%, если защита рассчитывает на пас.

Рис. 7.6. Вероятность успеха команды нападения в игре «третий даун, один ярд»

Допустим, в случае успешной игры команда защиты получает выигрыш, равный V, а неудачной — выигрыш 0. Выигрыш V может представлять собой то или иное количество очков, скажем, три очка за гол в ворота или семь очков за тачдаун. Кроме того, выигрыш V может отображать определенный уровень статуса или количество денег, заработанных командой; например, V = 100 за успешную игру в обычном матче или V = 1 000 000 за победу в Суперкубке по американскому футболу.

В фактической таблице игры между командами нападения и защиты, представленной на рис. 7.7, отображены ожидаемые выигрыши каждой команды. Они представляют собой среднее между выигрышем V при успешной игре и 0 при неудачной. Например, ожидаемый выигрыш команды нападения, использующей стратегию «пробежка» в случае, если команда защиты ожидает стратегии «пробежка», составляет 0,6 × V + 0,4 × 0 = 0,6V. Поскольку данная игра относится к категории игр с нулевой суммой, выигрыш команды защиты в этой ячейке равен –0,6V. Аналогичным образом вы можете рассчитать выигрыши во всех остальных ячейках таблицы, чтобы убедиться, что значения, приведенные ниже, правильные.

Рис. 7.7. Игра «третий даун, один ярд»

При равновесии в смешанных стратегиях вероятность p того, что команда нападения выберет стратегию «пробежка», определяется свойством безразличия соперника. Стало быть, правильное значение p удовлетворяет следующему условию:

p[–0,6V ] + (1 – p)[–0,8V] = p[–0,7V] + (1 – p)[–0,3V].

Обратите внимание, что мы можем разделить обе стороны этого равенства на V, чтобы полностью исключить V из процесса вычисления p. Тогда упрощенное уравнение будет выглядеть так: –0,6p – 0,8(1 – p) = –0,7p – 0,3(1 – p), или 0,1p = 0,5(1 – p). Решив его, получим p = 5/6; следовательно, команда нападения с высокой вероятностью применит стратегию «пробежка» в своей комбинации стратегий. Такую безопасную игру часто называют «процентной игрой», потому что это нормальный ход игры в подобных ситуациях. Рискованная игра (стратегия «пас») разыгрывается лишь изредка, чтобы держать соперника в неведении или, говоря на языке футбольных комментаторов, «не давать защите расслабиться».

Интересный аспект этого результата состоит в том, что выражение для вычисления p совершенно не зависит от V. То есть, согласно теории, процентную и рискованную игру следует смешивать в равных пропорциях как в очень важных, так и во второстепенных ситуациях. Но этот результат противоречит интуитивным выводам многих людей, которые считают, что в более важных ситуациях рисковать следует реже. Длинный пас на третьем дауне с одним оставшимся ярдом приемлем в обычный октябрьский воскресный день, но делать такой пас во время Суперкубка слишком рискованно.

Так кто же прав: теория или интуиция? По всей вероятности, мнения читателей по этому вопросу разделятся. Некоторые будут утверждать, что спортивные комментаторы ошибаются, и с радостью обнаружат, что теоретические аргументы опровергают их заявления. Другие примут сторону комментаторов и будут доказывать, что важные матчи требуют более безопасной игры. Есть и те, кто считает, что ради более крупных призов следует больше рисковать, однако даже они не находят поддержки данной идеи в теории, а это говорит о том, что размер приза или ущерба вряд ли оказывает какое-либо влияние на вероятности чистых стратегий в смешанной стратегии.

Во многих предыдущих случаях возникновения расхождений между теорией и интуицией мы утверждали, что они кажущиеся и являются результатом неспособности сделать теорию настолько общей или глубокой, чтобы она охватывала все аспекты ситуации, в отношении которой делаются интуитивные выводы, и что улучшение теории позволяет устранить такие расхождения. В данном случае ситуация иная: проблема имеет фундаментальное значение для вычисления выигрышей от смешанных стратегий как взвешенных по вероятности средних значений, или ожидаемых выигрышей. И это отправная точка почти всех научных работ в современной теории игр.

6. Смешивание стратегий при наличии трех или более чистых стратегий у одного игрока

Наше обсуждение игр со смешанными стратегиями до сих пор ограничивалось только играми, в которых у каждого участника было по две чистые стратегии, а также их комбинации. Однако во многих стратегических ситуациях каждый игрок располагает большим количеством чистых стратегий, поэтому мы должны подготовиться к вычислению равновесных смешанных стратегий и в подобных случаях. Но уровень сложности таких расчетов стремительно повышается. В поистине сложных играх для поиска равновесия в смешанных стратегиях нам пришлось бы прибегнуть к помощи компьютера. Тем не менее в некоторых небольших играх найти такое равновесие вручную не составит труда. И этот процесс вычислений позволит лучше понять, как работает равновесие, чем при анализе решения, сгенерированного компьютером. По этой причине в данном и следующем разделах мы поищем решение более крупных игр.

В этом разделе мы остановимся на играх с нулевой суммой, в которых у одного из игроков всего две чистые стратегии, тогда как у другого — больше. Как мы заметили, в таких играх игрок, имеющий три (или более) чистые стратегии, как правило, использует в равновесии только две. Остальные просто не входят в эту комбинацию стратегий, то есть вероятность их применения равна нулю. Мы должны лишь определить, какие стратегии используются в равновесии, а какие нет.

В качестве примера рассмотрим игру в розыгрыш очка в теннисе, включив в число стратегий Эверт третий тип возврата подачи. Помимо удара по линии и удара по диагонали теперь она может использовать свечу (более медленный, но и более высокий и длинный удар). Равновесие зависит от выигрышей в случае применения свечи против каждой из двух оборонительных стратегий Навратиловой. Начнем с самого вероятного случая, а затем перейдем к анализу особого случая.

А. Общий случай

Теперь в распоряжении Эверт три чистые стратегии: ПЛ (по линии), ПД (по диагонали) и СВ (свеча), а у Навратиловой только две: прикрывать удар ПЛ или прикрывать удар ПД. Таблица выигрышей этой новой игры представлена на рис. 7.8. Мы исходили из предположения, что выигрыши Эверт от стратегии СВ находятся в диапазоне между максимальным и минимальным выигрышами, которые она может получить от стратегий ПЛ и ПД, а также что они не слишком отличаются в случаях, когда Навратилова прикрывает ПЛ или ПД. В таблице отображены выигрыши не только от чистых стратегий, но и от трех чистых стратегий Эверт против q-комбинации Навратиловой. (Мы не показываем строку для p-комбинации Эверт, поскольку в этом нет необходимости. Для этого понадобились бы две вероятности, скажем, p₁ в случае стратегии ПЛ и p₂ в случае стратегии ПД; тогда вероятность стратегии СВ составила бы (1 – p₁ – p₂). В следующем разделе мы расскажем, как найти равновесные комбинации стратегий такого типа.)

Рис. 7.8. Таблица выигрышей в игре с розыгрышем очка с использованием стратегии «свеча»

Строго говоря, прежде чем приступать к поиску равновесия в смешанных стратегиях, мы должны убедиться в том, что в игре отсутствует равновесие в чистых стратегиях. Однако сделать это достаточно легко, поэтому оставляем эту задачу вам и переходим к смешанным стратегиям.

Мы проанализируем оптимальный выбор q Навратиловой с помощью логики наилучших ответов. На рис. 7.9 показаны ожидаемые выигрыши Эверт (проценты успеха) в случае выбора каждой из чистых стратегий — ПЛ, ПД и СВ, тогда как значение q в q-комбинации Навратиловой меняется в интервале от 0 до 1. На данном рисунке изображены графики формул расчета выигрышей, представленных в правом столбце таблицы на . По каждому значению q при выборе Навратиловой данной q-комбинации в равновесии наилучшим ответом Эверт был бы выбор стратегии, обеспечивающей ей (Эверт) самый высокий выигрыш. На рис. 7.9 совокупность наилучших исходов для Эверт выделена более жирной линией, называемой на языке математики верхней огибающей трех линий выигрышей. Навратилова стремится выбрать свое наилучшее значение q, которое бы позволило ей получить как можно более высокий выигрыш (тем самым понизив выигрыш Эверт, насколько возможно) из этой совокупности наилучших ответов Эверт.

Рис. 7.9. Поиск q-комбинации Навратиловой графическим способом

Для более точного определения оптимального выбора q Навратиловой мы должны вычислить координаты точек излома линии, соответствующей ее наихудшему исходу (и наилучшему исходу для Эверт). Значение q в крайней левой точке излома линии означает безразличие Эверт в отношении выбора между ПЛ и СВ. Это значение q должно равняться двум выигрышам от использования стратегий ПЛ и СВ против данной q-комбинации. Приравняв эти два выражения, получим 50q + 80(1 – q) = 70q + 60(1 – q), или q = 20/40 = 1/2 = 50%. Ожидаемый выигрыш Эверт в этой точке составит 50 × 0,5 + 80 × 0,5 = 70 × 0,5 + 60 × 0,5 = 65. Во второй (крайней правой) точке излома Эверт безразлично, какую стратегию выбрать, ПД или СВ. Таким образом, значение q в этой точке приравнивает выражения для вычисления выигрышей от стратегий ПД и СВ. Установив равенство 90q + 20(1 – q) = 70q + 60(1 – q), находим значение q = 40/60 = 2/3 = 66,7%. В этом случае ожидаемый выигрыш Эверт составляет 90 × 0,667 + 20 × 0,333 = 70 × 0,667 + 60 × 0,333 = 66,67. Следовательно, наилучший (или наименее неблагоприятный) выбор q Навратиловой находится в крайней левой точке излома, то есть q = 0,5. При этом ожидаемый выигрыш Эверт равен 65, а Навратиловой, соответственно, 35.

Когда Навратилова выбирает q = 0,5, Эверт безразлично, какую стратегию применить, ПЛ или СВ, а значит, выбор любой из них обеспечивает ей более высокий выигрыш, чем стратегия ПД. Поэтому Эверт не станет включать стратегию ПД в равновесие, и она станет неиспользуемой в равновесной комбинации стратегий Эверт.

Теперь продолжим анализ равновесия так, как если бы это была игра с двумя чистыми стратегиями у каждой из ее участницы: ПЛ и ПД у Навратиловой и ПЛ и СВ у Эверт. Итак, мы вернулись на знакомую почву, поэтому предоставляем вам возможность выполнить необходимые расчеты самостоятельно и приводим здесь только результат. Оптимальная комбинация стратегий Эверт в данной игре подразумевает выбор стратегии ПЛ с вероятностью 0,25 и стратегии СВ с вероятностью 0,75. Ожидаемый выигрыш Эверт от этой комбинации стратегий, использованных в игре против ПЛ и ПД Навратиловой соответственно, составляет 50 × 0,25 + 70 × 0,75 = 80 × 0,25 + 60 × 0,75 = 65, как, разумеется, и должно быть.

Мы не могли начать этот анализ с игры два на два, поскольку не знали заранее, какую из трех стратегий Эверт не будет использовать. Однако мы не сомневаемся, что в общем случае обязательно будет одна такая стратегия. Когда три линии ожидаемых выигрышей занимают самые общие положения, они пересекаются попарно, а не все в одной точке. При этом верхняя огибающая имеет форму как на . Самая нижняя точка огибающей задается пересечением линий выигрышей, соответствующих двум из трех стратегий. Выигрыш от третьей стратегии находится ниже пересечения в этой точке, а значит, игрок, выбирающий между тремя стратегиями, не будет использовать именно третью стратегию.

Б. Особые случаи

Положения и пересечения трех линий на зависят от выигрышей, указанных для чистых стратегий. Для данной игры мы выбирали выигрыши, позволяющие проиллюстрировать общую конфигурацию линий. Однако, если выигрыши находятся в весьма своеобразной зависимости друг от друга, мы можем получить особые конфигурации с различными результатами. Мы проанализируем здесь такие варианты, а возможность построить новые графики для этих случаев предоставляем вам.

Во-первых, если выигрыши от стратегии СВ, применяемой Эверт против стратегий ПЛ и ПД Навратиловой, равны, прямая СВ будет горизонтальной; при этом весь диапазон значений q делает комбинацию стратегий Навратиловой защищенной от использования. Например, если каждый из двух выигрышей в строке СВ таблицы на равен 70, то нетрудно определить, что левая точка излома на обновленном находилась бы в точке, соответствующей значению q = 1/3, а правая точка излома — в точке q = 5/7. При любом значении q в диапазоне от 1/3 до 5/7 наилучший ответ Эверт — СВ, а значит, мы получаем необычное равновесие, в котором Эверт выбирает чистую стратегию, а Навратилова чистые стратегии смешивает. Более того, вероятности чистых стратегий в равновесной смешанной стратегии Навратиловой имеют неопределенное значение в диапазоне от q = 1/3 до q = 5/7.

Во-вторых, если выигрыши Эверт при использовании стратегии СВ против стратегий ПЛ и ПД Навратиловой на определенную величину ниже выигрышей, представленных в таблице на (или если выигрыши от оставшихся двух стратегий на определенную величину выше указанных в таблице), все три прямые могут пересекаться в одной точке. Например, если выигрыши Эверт от стратегии СВ против стратегий ПЛ и ПД Навратиловой составляют не 70 и 60, а 66 и 56 соответственно, то при q = 0,6 ожидаемый выигрыш Эверт от стратегии СВ равен 66 × 0,6 + 56 × 0,4 = 39,6 + 22,6 = 62, то есть такой же, как и выигрыш от стратегий ПЛ и ПД при q = 0,6. В таком случае Эверт безразлично, какую из трех имеющихся стратегий выбрать при q = 0,6, и она готова смешивать все три.

В этом особом случае вероятности чистых стратегий в равновесной комбинации стратегий Эверт не могут быть полностью определенными. Напротив, целый диапазон комбинаций (в том числе и использующих все три стратегии) может выполнять задачу по поддержанию безразличия Навратиловой в отношении выбора между стратегиями ПЛ и ПД, а значит, и готовности их смешивать. Тем не менее Навратилова должна применить комбинацию со значением q = 0,6. Если она этого не сделает, наилучшим ответом Эверт будет переход к одной из чистых стратегий в ущерб Навратиловой. Мы не станем подробно останавливаться на определении точного диапазона, в котором могут меняться равновесные смешанные стратегии Эверт, поскольку такая ситуация может сложиться лишь при особых комбинациях выигрышей и, стало быть, это не столь важно.

Обратите внимание, что выигрыши Эверт от использования стратегии СВ против стратегий ПЛ и ПД Навратиловой могут быть даже ниже значения, при котором все три прямые пересекаются в одной точке (например, если бы выигрыши от СВ равнялись 75 и 30 вместо 70 и 60, как на ). Тогда стратегия СВ не может быть наилучшим ответом Эверт, хотя она не является ни доминируемой стратегией ПЛ, ни доминируемой стратегией ПД. Случай, когда стратегия СВ доминируема по отношению к комбинации стратегий ПЛ и ПД, рассматривается в онлайн-приложении в данной главе.

7. Смешивание стратегий при наличии трех стратегий у обоих игроков

При рассмотрении игр, в которых у обоих игроков есть по три чистые стратегии с возможностью смешивания всех трех, необходимы две переменные, чтобы задать каждую комбинацию стратегий. В комбинации игрока, данные которого отображаются в строках, его первой чистой стратегии соответствует вероятность p₁, а второй — вероятность p₂. Тогда вероятность использования третьей чистой стратегии должна составлять 1 минус сумма вероятностей остальных двух стратегий. То же самое касается комбинации игрока, которому соответствуют столбцы. Таким образом, когда каждый игрок имеет по три чистые стратегии, найти равновесие в смешанных стратегиях без выполнения алгебраических операций с двумя переменными нельзя. Тем не менее зачастую такие алгебраические расчеты вполне выполнимы.

А. Полная комбинация всех стратегий

Рассмотрим упрощенное представление пенальти в футболе. Предположим, выполняющий его игрок, бьющий правой ногой, имеет три чистые стратегии: удар влево, вправо или в центр (налево или направо по отношению к вратарю; для игрока-правши было бы логично отправить мяч направо от вратаря), и может смешивать их с вероятностями, обозначенными как p_л, p_п, p_ц соответственно. Любые две из этих вероятностей можно принять как независимые переменные, а третью выразить через них. Если p_л и p_п — независимые переменные, то p_ц = 1 – p_л – p_п. Вратарь также располагает тремя чистыми стратегиями, а именно двигаться налево от бьющего игрока (направо от самого вратаря), направо от бьющего игрока (налево от вратаря) или оставаться в центре. Кроме того, вратарь может их смешивать с вероятностями q_л, q_п, q_ц, две из которых могут быть выбраны в качестве независимых переменных.

Как и в , график наилучших ответов для этой игры потребовал бы более двух размерностей. (Точнее говоря, четыре. Вратарь выбрал бы свои две независимые переменные, скажем (q_л, q_п), как свой наилучший ответ на две независимые переменные игрока, выполняющего пенальти (p_л, p_п), и наоборот.) Вместо этого мы снова воспользуемся свойством безразличия соперника, чтобы сфокусироваться на вероятностях чистых стратегий в смешанной стратегии по одному игроку за один раз. В случае каждого игрока вероятности должны быть такими, чтобы другому игроку было безразлично, какую стратегию из имеющихся в его комбинации стратегий выбрать. Это дает нам систему уравнений, которая позволит найти вероятности применения чистых стратегий в смешанной стратегии. В примере с футболом переменные (p_л, p_п) удовлетворяли бы двум уравнениям, выражающим требование о том, что ожидаемый выигрыш вратаря от использования стратегии «налево» должен быть равен ожидаемому выигрышу от применения стратегии «направо», а также что ожидаемый выигрыш вратаря от выбора стратегии «направо» должен равняться ожидаемому выигрышу от выбора стратегии «в центре». (В таком случае равенство ожидаемых выигрышей от применения стратегий «налево» и «в центре» определяется автоматически и не требует отдельного уравнения.) При большем количестве стратегий число вероятностей, подлежащих вычислению, и уравнений, которым они должны удовлетворять, тоже увеличивается.

На рис. 7.10 показана таблица взаимодействия между игроком, выполняющим пенальти, и вратарем, где в качестве выигрышей каждого игрока указаны проценты успешных действий. (В этой таблице для упрощения расчетов приведены не фактические данные европейского футбола, представленные чуть ниже, а аналогичные округленные числа.) Поскольку игрок, бьющий пенальти, хочет максимально увеличить выраженную в процентах вероятность того, что он забьет гол, а вратарь стремится минимизировать вероятность того, что он его пропустит, мы имеем дело с игрой с нулевой суммой. Например, в ситуации, когда бьющий игрок отправит мяч налево от себя, а вратарь сделает движение налево от бьющего игрока (ячейка в верхнем левом углу), мы исходим из предположения, что бьющему игроку все равно удастся забить гол в 45% случаев, стало быть, вратарь сможет отразить удар в 55% случаев. Однако если бьющий игрок отправит мяч направо от себя, а вратарь сделает движение налево от него, то у бьющего есть возможность забить гол с вероятностью 90%; мы исходим из того, что он с вероятностью 10% может ударить мимо или выше ворот, а значит, вратарь может добиться успеха в 10% случаев. Вы можете поэкспериментировать с другими, более приемлемыми, на ваш взгляд, значениями выигрышей.

Рис. 7.10. Игра в пенальти в футболе

Легко убедиться, что в этой игре нет равновесия в чистых стратегиях. Поэтому допустимя, что игрок, выполняющий пенальти, смешивает стратегии с вероятностями p_л, p_п и p_ц = 1 – p_л – p_п. По каждой чистой стратегии вратаря эта комбинация обеспечивает ему следующие выигрыши:

«Налево»: 55p_л + 15p_ц + 5p_п = 55p_л + 15(1 – p_л – p_п) + 5p_п.«В центр»: 10p_л + 100p_ц + 5p_п = 10p_л + 100(1 – p_л – p_п) + 5p_п.
«Направо»: 10p_л + 15p_ц + 40p_п = 10p_л + 15(1 – p_л – p_п) + 40p_п.

Правило безразличия соперника гласит, что бьющий игрок должен выбрать p_л и p_п, с тем чтобы в равновесии все три выражения были эквивалентны.

Приравняв выражения, соответствующие стратегиям «налево» и «направо», и упростив полученное равенство, имеем 45p_л = 35p_п, или p_п = (9/7)p_л. Далее приравниваем выражения, соответствующие стратегиям «в центре» и «направо», и упрощаем полученное равенство с помощью только что выведенного соотношения между p_п. Это дает 10p_л + 100[1 – p_л – (9p_л / 7)] + 5(9p_л / 7) = 10p_л + 15[1 – p_л – (9p_л / 7)] + 40 (9p_л / 7), или [85 + 120(9/7)] p_л = 85, что дает p_л = 0,355. Далее получаем p_п = 0,355(9/7) = 0,457 и, наконец, p_ц = 1 – 0,355 – 0,457 = 0,188. Затем вычисляем с помощью представленных выше трех строк выигрышей выигрыш вратаря от любой из его трех стратегий против этой комбинации стратегий; результат — 24,6.

Вероятности чистых стратегий в смешанной стратегии вратаря можно определить, записав и решив уравнения безразличия бьющего игрока в отношении его выбора из трех чистых стратегий в игре против комбинации стратегий вратаря. Мы будем это делать в ходе анализа несколько измененного варианта этой игры в , поэтому здесь опускаем детали и просто приводим полученный результат: q_л = 0,325, q_п = 0,561 и q_ц = 0,113. Выигрыш бьющего игрока от любой из его чистых стратегий в игре против равновесной комбинации стратегий вратаря составляет 75,4. Разумеется, он согласуется с выигрышем вратаря 24,6, который мы вычислили выше.

Теперь можем разъяснить эти выводы. Игрок, выполняющий пенальти, получит более высокий выигрыш от своей чистой стратегии «направо», чем от чистой стратегии «налево», как в случае, если вратарь правильно угадает его ход (60 > 45), так и если он ошибется (95 > 90). (Предположительно игрок будет бить левой, а значит, может сделать более сильный удар направо.) Таким образом, бьющий игрок выберет с самой высокой вероятностью стратегию «направо», и чтобы противостоять этому, вратарь также с высокой вероятностью выберет стратегию «направо»; однако при таком раскладе выигрыш бьющего в итоге составит всего 60, то есть меньше выигрыша 75,4, который он получит при равновесии в смешанных стратегиях.

Б. Равновесные комбинации, в которых используются не все стратегии

В равновесии из предыдущего примера вероятность применения стратегии «в центре» в смешанной стратегии достаточно низкая для каждого игрока. Комбинация «в центр» / «в центре» привела бы к гарантированному отражению пенальти, и бьющий игрок получил бы поистине низкий выигрыш, то есть ноль. В связи с чем данный игрок присваивает этому выбору низкую вероятность. Но тогда вратарь также должен присвоить выбору этой стратегии низкую вероятность, сосредоточившись на противодействии более вероятным стратегиям бьющего игрока. Но если последний получит достаточно высокий выигрыш от выбора стратегии «в центр», когда вратарь применит «налево» или «направо», то он будет выбирать «в центр» с определенной положительной вероятностью. Если бы выигрыши бьющего игрока в строке, соответствующей стратегии «в центр», были ниже, то он мог бы использовать стратегию «в центр» с нулевой вероятностью; тогда вратарь также присвоил бы нулевую вероятность стратегии «в центре». При таком развитии событий данная игра превратилась бы в игру с двумя базовыми чистыми стратегиями, «налево» и «направо», находящимися в распоряжении каждого игрока.

Этот вариант игры в футбол показан на рис. 7.11. Единственное различие между выигрышами в данной и первоначальной версии игры () состоит в том, что выигрыши бьющего игрока от комбинации стратегий «в центр» / «слева» и «в центр» / «справа» сократились еще больше, с 85 до 70. Это могло произойти потому, что бьющему игроку свойственно посылать мяч слишком высоко, а значит, он часто промахивается, целясь в центр. Попробуем вычислить равновесие в этой игре, воспользовавшись тем же методом, что и в . На этот раз сделаем это с позиции вратаря, попытавшись найти вероятности применения чистых стратегий q_л, q_п и q_ц в смешанной стратегии с помощью условия безразличия бьющего игрока в отношении выбора между тремя чистыми стратегиями в игре против данной комбинации стратегий.

Рис. 7.11. Вариант игры в пенальти в футболе

Выигрыши бьющего игрока от его чистых стратегий составляют:

«Налево»: 45q_л + 90q_ц + 90q_п = 45q_л + 90(1 – q_л – q_п) + 90q_п = 45q_л + 90(1 – q_л).
«В центре»: 70q_л + 0q_ц + 70q_п = 70q_л + 70q_п.
«Направо»: 95q_л + 95q_ц + 60q_п = 95q_л + 95(1 – q_л – q_п) + 60q_п = 95(1 – q_л) + 60q_п.

Приравняв выражения, соответствующие стратегиям «налево» и «направо», и упростив полученное равенство, имеем 90 – 45q_л = 95 – 35q_п, или 35q_п = 5 + 45q_л. Далее приравниваем выражения, соответствующие стратегиям «налево» и «в центр», и упрощаем их, что дает 90 – 45q_л = 70q_л + 70q_п, или 115q_л + 70q_п = 90. Подставив q_п из первого уравнения (сначала умножив все члены уравнения на 2, чтобы вышло 70q_п = 10 + 90q_л) во второе, получаем 205q_л = 80, или q_л = 0,390. Затем, подставив это значение q_л в любое из уравнений, получим q_п = 0,644. И наконец, используем эти оба значения, чтобы получить q_ц = 1 – 0,390 – 0,644 = –0,034. Поскольку значение вероятности не может быть отрицательным, что-то явно пошло не так.

Чтобы понять, что происходит в данном примере, для начала обратите внимание на то, что теперь для бьющего пенальти игрока стратегия «в центр» хуже этой же стратегии в первоначальной версии игры, где вероятность ее выбора уже была достаточно низкой. Однако логика безразличия соперника, выраженная в виде уравнений, приведших к данному решению, означает, что бьющий игрок должен быть готов использовать эту плохую стратегию. Это может произойти только тогда, когда вратарь достаточно редко применяет свою наилучшую стратегию противодействия стратегии бьющего игрока «в центр», а именно стратегию «в центре». В данном примере такую логику рассуждений необходимо продолжать до тех пор, пока вероятность применения вратарем стратегии «в центре» не станет отрицательной.

С сугубо алгебраической точки зрения полученное решение вполне приемлемо, однако оно нарушает требование теории вероятностей и свойственной реальной жизни рандомизации в отношении того, что значение вероятности не может быть отрицательным. Лучшее, что здесь можно сделать, — снизить вероятность выбора вратарем стратегии «в центре» до минимального значения, то есть до нуля. Но в этом случае бьющий игрок не склонен к выбору стратегии «в центр». Иными словами, мы получаем ситуацию, в которой каждый игрок не использует одну из своих чистых стратегий в смешанной стратегии или использует ее с нулевой вероятностью.

Но тогда может ли существовать равновесие, в котором каждый игрок смешивает две оставшиеся стратегии — «налево» и «направо»? Если рассматривать эту сокращенную игру два на два саму по себе, можно без труда найти ее равновесие в смешанных стратегиях. Учитывая, что к настоящему моменту вы уже накопили достаточно большой опыт, мы оставляем детали поиска равновесия вам и приводим только полученный результат.

Вероятности применения чистых стратегий в смешанной стратегии бьющего игрока: p_л = 0,4375, p_л = 0,5625.
Вероятности применения чистых стратегий в смешанной стратегии вратаря: q_л = 0,3750, q_п = 0,6250.
Ожидаемый выигрыш бьющего игрока (процент успеха): 73,13.
Ожидаемый выигрыш вратаря (процент успеха): 26,87.

Мы получили этот результат, просто исключив стратегии двух игроков «в центр» и «в центре», руководствуясь интуицией. Но мы должны проверить, действительно ли это равновесие будет таковым в полной игре три на три, то есть должны убедиться, что ни один игрок не сочтет нужным применить третью стратегию в случае комбинации двух стратегий, выбранных другим игроком.

При выборе вратарем той или иной комбинации стратегий выигрыш бьющего игрока от применения чистой стратегии «в центр» составляет 0,375 × 70 + 0,625 × 70 = 70, что меньше выигрыша 73,13, который он получит от любой из своих чистых стратегий «налево» и «направо» или от любой их комбинации, а значит, бьющему игроку нет необходимости применять стратегию «в центр». Когда бьющий игрок выбирает комбинацию из двух стратегий с указанными выше вероятностями, выигрыш вратаря от использования чистой стратегии «в центре» составляет 0,4375 × 10 + 0,5625 × 50 = 7,2. И он существенно ниже выигрыша 26,87, который вратарь получил бы в случае применения любой из своих чистых стратегий «налево» и «направо» или от любой их комбинации. Таким образом, вратарю также не имеет смысла применять стратегию «в центре». Следовательно, равновесие, которое мы нашли для игры два на два, актуально и для игры три на три.

Чтобы предусмотреть вероятность того, что некоторые стратегии могут остаться незадействованными в равновесной комбинации стратегий, следует уточнить или расширить принцип безразличия соперника. Равновесная комбинация каждого игрока должна быть такой, чтобы другому игроку было безразлично, какую именно стратегию выбрать из тех, которые действительно используются в его равновесной комбинации, то есть другому игроку не безразличен выбор между ними и неиспользованными стратегиями и он отдает предпочтение выбранным стратегиям перед невыбранными. Иными словами, в игре против равновесной комбинации соперника все стратегии, вошедшие в состав вашей равновесной комбинации, должны обеспечивать вам один и тот же ожидаемый выигрыш, а он, в свою очередь, должен превышать выигрыш, который бы вы получили от любой из неиспользованных стратегий.

Какие именно стратегии останутся неиспользованными в равновесии? Ответ на этот вопрос требует применения метода проб и ошибок, как в приведенных выше вычислениях, либо выполнения соответствующих расчетов с помощью компьютерной программы. Как только вы поймете саму концепцию, можете приступать ко второму. Описание общей теории равновесий в смешанных стратегиях в случаях, когда в распоряжении игроков есть любое количество возможных стратегий, ищите в онлайн-приложении к данной главе.

8. Как использовать смешанные стратегии на практике

При поиске или выборе смешанной стратегии в игре с нулевой суммой следует помнить о нескольких важных моментах. Во-первых, для эффективного использования смешанной стратегии в такой игре ее участникам нужно сделать нечто большее, чем просто вычислить выраженные в процентах равновесные вероятности применения каждого из своих действий. На самом деле в игре с розыгрышем очка в теннисе Эверт не может просто выбирать стратегию ПЛ в семи из десяти случаев и стратегию ПД в трех из десяти случаев, механически чередуя семь ударов по линии и три удара по диагонали. Почему? Потому что смешивание стратегий должно помочь вам в полной мере воспользоваться элементом неожиданности в игре против соперника. Если вы задействуете узнаваемую схему игры, соперник наверняка это выявит и обернет себе на пользу.

Отсутствие закономерности означает, что после любой последовательности выбранных стратегий вероятность выбора стратегии ПЛ или ПД в следующий раз остается такой же, как всегда. Скажем, если стратегия ПЛ случайно используется несколько раз подряд, это отнюдь не означает, что ее «обязательно» должна сменить стратегия ПД. На практике многие ошибочно рассуждают совсем иначе, поэтому слишком часто чередуют варианты выбора по сравнению с тем, какой была бы их истинная случайная последовательность, и крайне редко используют несколько идентичных вариантов подряд. Тем не менее обнаружение закономерности в наблюдаемых действиях требует сложных статистических расчетов, которые соперники зачастую не в состоянии выполнять во время игры. Как мы увидим в , анализ результатов финальных матчей турниров Большого шлема привел к выводу, что подающие игроки слишком часто чередовали свои подачи, но принимающие не смогли обнаружить и воспользоваться этим отклонением от истинного вероятностного выбора действий.

Важность предотвращения предсказуемости наиболее очевидна в случае непрерывного взаимодействия в играх с нулевой суммой. Поскольку в таких играх интересы игроков диаметрально противоположны, ваш соперник всегда стремится использовать ваш выбор действий с максимальной выгодой для себя. Таким образом, если вы регулярно ведете против друг друга одну и ту же игру, соперник будет постоянно искать способ взломать код, используемый вами для рандомизации своих ходов. И если ему это удастся, у него появится шанс увеличить свой выигрыш в следующих раундах игры. Однако даже в случае однократных игр с нулевой суммой смешивание стратегий приносит пользу благодаря тактической неожиданности.

Победитель Мировой серии покера Дэниел Харрингтон, написавший в соавторстве с Биллом Роберти ряд замечательных книг об игре в разновидность покера под названием «техасский холдем», отмечает важность рандомизации стратегии в покере, позволяющей помешать сопернику угадать, какие карты у вас на руках, и использовать ваше поведение с выгодой для себя. Поскольку людям зачастую трудно вести себя непредсказуемо, Харрингтон дает следующий совет относительно того, как применять комбинацию таких чистых стратегий, «поднять ставку» и «ответить»:

Очень трудно точно вспомнить, что ты делал в последних четырех или пяти случаях при возникновении похожей ситуации. К счастью, это и не надо. Просто используй тот маленький генератор случайных чисел, который ты носишь в течение дня с собой. Что это? Ты и не знаешь, что у тебя такое есть? Да это секундная стрелка на твоих часах. Если ты знаешь, что в ранней позиции и при наличии на руках старшей пары ты должен повышать ставку в 80% случаев и отвечать в остальных 20%, то просто посмотри на часы и обрати внимание на положение секундной стрелки. Поскольку 80% от 60 составляют 48, ты должен повышать ставку, если секундная стрелка находится между делениями от 0 до 48, и только отвечать, если между 48 и 60. Этот метод хорош тем, что даже если бы кто-то точно знал, что ты делаешь, он бы все равно не смог предсказать твоих дальнейших действий!

Безусловно, при использовании секундной стрелки часов для реализации смешанной стратегии важно, чтобы ваши часы не были слишком точными, иначе соперник сможет использовать такие же часы и предугадает ваши намерения!

До сих пор мы исходили из предположения, что вы заинтересованы в применении смешанной стратегии, чтобы предотвратить возможное использование соперником ваших действий в своих интересах. Однако если он не придерживается равновесной стратегии, вы можете попытаться воспользоваться его ошибкой. В качестве иллюстрации приведем пример из эпизода мультсериала «Симпсоны», в котором Барт и Лиза играют друг с другом в игру «камень, ножницы, бумага». (В дано полное описание этой игры три на три; вам предстоит вычислить равновесную комбинацию стратегий каждого игрока.) Перед выбором стратегий Барт думает: «Конечно, камень. Он самый сильный». В то же время Лиза думает: «Бедный предсказуемый Барт. Он всегда выбирает камень». Как и следовало ожидать, наилучший ответ Лизы — стратегия «бумага» против своего незадачливого соперника; ей нет необходимости применять равновесную комбинацию стратегий.

Более тонкий пример использования действий соперника в своих интересах можно наблюдать в разыгрываемой парами студентов версии игры в теннис под названием «лучший из 100». Как и профессиональные теннисисты, наши студенты слишком часто переключаются с одной стратегии на другую, по всей видимости, считая, что выбор ПЛ пять раз подряд выглядит не таким уж «случайным». Для того чтобы извлечь из этого поведения выгоду для себя, игрок в роли Навратиловой смог предвидеть, что после выбора стратегии ПЛ три раза подряд игрок в роли Эверт, по всей вероятности, перейдет к стратегии ПД, и это можно обернуть себе на пользу, также переключившись на стратегию ПД. Этому игроку следовало бы поступать так чаще, чем в случае рандомизации каждого раунда игры в отдельности, но в идеале не так часто для того, чтобы игрок в роли Эверт заметил это и не научился повторять одну и ту же стратегию большее количество раз.

И наконец, игроки должны понять и принять тот факт, что применение смешанных стратегий защищает вас от использования соперником ваших действий в своих интересах и обеспечивает вам максимально возможный ожидаемый выигрыш в игре с соперником, который делает свой лучший выбор, но это не более чем математическое ожидание. В особых случаях игра может закончиться для вас неблагоприятным исходом. Например, длинный пас на третьем дауне с одним оставшимся ярдом, сделанный, чтобы держать защиту в напряжении, может завершиться неудачей в любом конкретном случае. Если вы выбираете смешанную стратегию в ситуации, за которою несете ответственность перед руководством, вы должны предусмотреть такой вариант. Вам следует заранее объяснить целесообразность использования вашей стратегии, скажем, своему тренеру или боссу. Они должны понять, почему вы ее выбрали и почему считаете, что она обеспечит вам наилучший выигрыш в среднем, хотя иногда и чревата достаточно низким выигрышем. Однако даже такое заблаговременное планирование не всегда способно защитить вашу «репутацию», поэтому вы должны быть готовы к критике при нежелательном исходе игры.

9. Эмпирические данные о смешивании стратегий

А. Игры с нулевой суммой

Первые исследователи, проводившие лабораторные эксперименты в области теории игр, как правило, пренебрегали смешанными стратегиями. Дуглас Дэвис и Чарльз Холт сказали по этому поводу следующее: «Участников экспериментов редко (если вообще когда-либо) можно было увидеть за подбрасыванием монеты, а когда впоследствии им говорили, что равновесие подразумевает рандомизацию, это вызывало у них удивление и скептицизм». Когда ожидаемое равновесие подразумевает смешивание двух или более чистых стратегий, результаты экспериментов показывают, что некоторые участники группы придерживаются одной чистой стратегии, тогда как остальные — другой, но это не истинное смешивание стратегий одним игроком. При многократной игре участников эксперимента в игры с нулевой суммой отдельные игроки часто со временем выбирают другие чистые стратегии. Тем не менее создается впечатление, что они ошибочно принимают чередование за случайный выбор, то есть переключаются между стратегиями чаще, чем того требует истинная рандомизация.

В ходе последующих исследований были получены несколько более достоверные данные в пользу смешивания в играх с нулевой суммой. Когда участники лабораторных экспериментов имеют возможность накопить большой опыт, они действительно осваивают навыки смешивания стратегий в играх с нулевой суммой. Тем не менее отклонения от равновесных прогнозов остаются весьма существенными. Усредненные по всем участникам эксперимента эмпирические вероятности, как правило, достаточно близки к вероятностям, рассчитанным посредством равновесия, но многие игроки все же выбирают стратегии в пропорциях, далеких от предсказанных равновесием. Колин Камерер сказал об этом следующее: «Общая картина такова, что смешанные равновесия в среднем не приводят к неверным догадкам в отношении поведения людей».

Один случай практического применения рандомизации произошел в Малайе в конце 1940-х годов. Британская армия сопровождала продовольственные конвои, чтобы защитить их от нападений коммунистов-террористов. Последние могли либо организовать масштабное нападение, либо провести мелкий снайперский обстрел, чтобы напугать водителей грузовиков, дабы те отказались от выполнения такой работы в следующий раз. Британское сопровождение могло либо группироваться в одном месте, либо рассредоточиться по всему конвою. Для армии сосредоточение позволяло эффективнее противостоять масштабной атаке, а рассредоточение было действенно против снайперов. Для террористов масштабное нападение было лучше при рассредоточенном сопровождении, а снайперский обстрел — при концентрации военных. В этой игре с нулевой суммой есть только одно равновесие в смешанных стратегиях. Командир отряда сопровождения, даже не слышавший о теории игр, решил проблему следующим образом. Каждое утро во время формирования конвоя он брал травинку в одну из рук и прятал руки за спиной, предлагая солдатам угадать, в какой руке травинка. В зависимости от ответа солдата командир выбирал тот или иной тип сопровождения конвоя. Хотя о точных показателях выигрышей в этой игре судить трудно, поэтому мы не можем сказать, было ли верным смешивание стратегий в соотношении 50 на 50, этот офицер правильно оценил необходимость рандомизации и важности использования новой процедуры рандомизации каждый день, чтобы избежать формирования закономерности или слишком частого чередования вариантов выбора.

Самые убедительные данные в поддержку смешанных стратегий в играх с нулевой суммой связаны со спортом, особенно его профессиональными видами, в которых игроки накапливают большой опыт, а присущее им стремление к победе подкрепляет крупное материальное вознаграждение при ее достижении.

Марк Уокер и Джон Вудерс проанализировали игру «подача — возврат подачи» между теннисистами высшего уровня во время матчей Уимблдонского турнира и представили это взаимодействие как игру с двумя участниками (подающим и принимающим), в которой каждый игрок имеет две чистые стратегии. Подающий может делать подачу под правую или левую руку принимающего, а принимающий может делать предположения о том, в какую сторону отправит подачу подающий, и двигаться именно туда. Поскольку во время турниров высшего уровня в мужском одиночном разряде подачи выполняются очень быстро, принимающий не может предпринять ответное действие после того, как увидит фактическое направление подачи, поэтому ему приходится двигаться в соответствии со своей оценкой возможного направления. Таким образом, это игра с одновременными ходами. Кроме того, так как принимающий стремится правильно угадать действия подающего, а подающий старается ввести в заблуждение принимающего, в этой игре мы видим равновесие в смешанных стратегиях. Отследить стратегию принимающего на видеозаписи невозможно (разве можно увидеть, на какую ногу он переносит вес?), поэтому полную матрицу выигрышей для проверки, смешивают ли игроки свои чистые стратегии в соответствии с равновесными прогнозами, воссоздать нельзя. Тем не менее правильность важного теоретического прогноза можно проверить, рассчитав частоту, с которой подающий выигрывает очко в случае каждой из имеющихся в его распоряжении стратегий подачи.

Если теннисисты используют равновесные комбинации стратегий в игре «подача — возврат подачи», подающий должен выигрывать очко с одинаковой вероятностью независимо от того, делает ли он подачу под правую или под левую руку принимающего. В реальном теннисном матче два игрока разыгрывают не менее сотни очков; следовательно, это предоставляет достаточно данных, чтобы проверить, выполняется ли это условие в каждом матче. Уокер и Вудерс составили таблицу результатов подач в 10 матчах. В каждом матче используются четыре типа комбинаций «подача — возврат подачи»: игрок А делает подачу игроку Б и наоборот в сочетании с подачей с правой или с левой стороны корта. Таким образом, Уокер и Вудерс проанализировали данные о 40 ситуациях с розыгрышем подачи и обнаружили, что в 39 из них показатели результативности подающего в случае подачи под правую и под левую руку попадали в допустимые пределы статистической погрешности.

По всей вероятности, теннисисты высшего уровня накопили достаточно большой общий опыт игры в теннис и ее ведения против различных соперников, для того чтобы усвоить общий принцип смешивания стратегий в правильном соотношении в игре против конкретных противников. Тем не менее, чтобы добиться необходимого уровня непредсказуемости, в любой последовательности подач не должно быть никакой закономерности: выбор стороны при каждой подаче не должен зависеть от предыдущего выбора. Как уже отмечалось в контексте применения смешанных стратегий на практике, игроки могут слишком часто чередовать чистые стратегии, не осознавая того, что чередование — такая же закономерность, как и неоднократное повторение одного и того же действия. И данные действительно подтверждают тот факт, что подающие чередовали свои стратегии слишком часто. Однако, согласно тем же данным, такое отклонение от истинного смешивания стратегий оказалось не настолько большим, чтобы соперники его заметили и использовали с выгодой для себя.

Как было показано в , пенальти в футболе — еще один подходящий контекст для изучения смешанных стратегий. Преимущество анализа штрафных ударов состоит в том, что это действительно позволяет отслеживать стратегии, используемые как игроком, выполняющим пенальти, так и вратарем, то есть видеть не только, куда бьющий игрок собирается послать мяч, но и в какую сторону бросается вратарь. Это означает, что мы можем вычислить фактические вероятности смешивания стратегий и сравнить их с теоретическими прогнозами. Недостаток этого контекста по сравнению с теннисом состоит в том, что два игрока сталкиваются друг с другом не более чем несколько раз за сезон. Для того чтобы собрать достаточно данных, вместо анализа конкретных случаев противоборства между игроками необходимо проанализировать показатели всех вратарей и игроков, выполняющих пенальти. По результатам двух исследований, основанных именно на таких данных, было получено убедительное подтверждение теоретических прогнозов.

Проанализировав большой объем данных, предоставленных профессиональными футбольными лигами Европы, Игнасио Уэрта составил таблицу выигрышей, соответствующих средней вероятности успешных ударов бьющего игрока (рис. 7.12). Поскольку в эти данные включены показатели бьющих игроков как с правой, так и с левой ноги, а значит, у них разное естественное направление удара, здесь естественной считается стратегия «направо». (Игроки, выполняющие пенальти, обычно бьют по мячу внутренней стороной стопы. Для игрока, бьющего с правой ноги, естественным является удар направо от вратаря, а с левой — удар налево от вратаря.) Каждый игрок располагает двумя вариантами стратегий — «налево» и «направо». Когда вратарь выбирает стратегию «направо», это означает, что он будет прикрывать естественное направление удара бьющего игрока.

Рис. 7.12. Вероятности успешного выполнения пенальти в европейских высших лигах

Воспользовавшись свойством безразличия соперника, можно легко определить, что бьющий игрок должен выбирать стратегию «налево» в 38,3% случаев, а стратегию «направо» в 61,7% случаев. Такая комбинация стратегий обеспечивает показатель результативности ударов 79,6% независимо от того, какую стратегию выберет вратарь. Вратарь, со своей стороны, должен выбирать стратегии «налево» и «направо» в 41,7 и 58,3 процентах случаев соответственно; эта комбинация стратегий позволит ему удержать показатель результативности ударов бьющего игрока на уровне 79,6%.

Что же происходит на самом деле? Игроки, выполняющие пенальти, применяли стратегию «налево» в 40,0% случаев, а вратари — в 41,3% случаев. Эти показатели максимально близки к теоретическим прогнозам. Выбранные комбинации стратегий почти полностью защищены от использования соперником в своих интересах. Смешанная стратегия бьющего игрока обеспечивает показатель результативности ударов 79% против стратегии вратаря «налево» и 80% против стратегии вратаря «направо». Смешанная стратегия вратаря удерживает показатель результативности бьющих игроков на уровне 79,3% при выборе ими стратегии «налево», а при тратегии «направо» в 79,7% случаев.

В ранее опубликованной работе Пьер-Андре Кьяппори, Тимоти Гроусклоуз и Стивен Левитт использовали аналогичные данные и получили аналогичные результаты. Кроме того, они проанализировали всю последовательность выбора стратегий каждым игроком, бьющим пенальти, и каждым вратарем и не нашли случаев чрезмерного чередования. Это можно объяснить тем, что большинство одиннадцатиметровых штрафных ударов представляют собой единичные события, происходящие на протяжении многих матчей, в отличие от многократно повторяющихся розыгрышей очка в теннисе, поэтому в случае пенальти игроки чаще не учитывают то, что происходило во время предыдущих пенальти. Тем не менее все эти данные говорят о том, что действия игроков во время выполнения пенальти в футболе даже ближе к истинному смешиванию стратегий, чем в игре «подача — возврат подачи» в теннисе.

При столь убедительном эмпирическом подтверждении теории было бы резонно спросить, эффективны ли навыки смешивания стратегий, приобретенные игроками в футболе, в других игровых контекстах. Результаты одного исследования подтвердили, что да (испанские профессиональные футболисты играли в точном соответствии с равновесными прогнозами во время лабораторных экспериментов в матричных играх с нулевой суммой два на два и четыре на четыре). Тем не менее в ходе другого исследования воспроизвести эти результаты не удалось. В его рамках анализировались показатели игроков американской Высшей лиги футбола, а также участников Мировой серии покера (у которых, как говорилось в , также есть профессиональные причины для предотвращения использования их действий соперниками с выгодой для себя посредством смешивания стратегий) и было установлено, что поведение профессиональных игроков во время абстрактных матричных игр так же далеко от равновесия, как и поведение студентов. Как и в случае исследований с участием профессиональных шахматистов, о которых шла речь в , при наличии опыта профессиональные игроки смешивают стратегии в соответствии с теорией равновесия в своей профессиональной сфере, но этот опыт не приводит их автоматически к равновесию в новых и незнакомых играх.

Б. Игры с ненулевой суммой

Лабораторные эксперименты со смешиванием стратегий в играх с ненулевой суммой дают еще более отрицательные результаты, чем аналогичные эксперименты в играх с нулевой суммой. И это неудивительно. Как мы уже убедились, в таких играх свойство, в соответствии с которым равновесная комбинация стратегий каждого игрока становится причиной безразличия соперника в отношении выбора между чистыми стратегиями, — логическое свойство самого равновесия. В отличие от игр с нулевой суммой, у каждого участника игры с ненулевой суммой зачастую нет положительных или целевых причин добиваться безразличия других игроков. В таком случае игрокам труднее понять и освоить логику рассуждений, лежащую в основе вычисления вероятностей применения чистых стратегий в смешанной стратегии, что проявляется в их поведении.

В группе участников эксперимента, играющих в игру с ненулевой суммой, можно увидеть, как одни игроки придерживаются одной чистой стратегии, тогда как другие — другой. Этот тип смешивания в группе не согласуется с теорией равновесий в смешанных стратегиях, хотя у такого смешивания есть интересная эволюционная интерпретация, которую мы проанализируем в .

Как мы говорили выше в , вероятности применения чистых стратегий в смешанной стратегии каждого игрока не должны меняться при изменении его выигрышей. Однако на самом деле именно это и происходит: как правило, игроки выбирают то или иное действие чаще, если их собственный выигрыш от этого увеличивается. Игроки действительно меняют свои действия в ходе повторных раундов игры с разными партнерами, но не в соответствии с равновесными прогнозами.

Общий вывод таков: в играх с ненулевой суммой следует интерпретировать и применять равновесия в смешанных стратегиях как минимум с большой осторожностью.

Резюме

Игры с нулевой суммой, в которых один игрок предпочитает совмещение действий, а другой наоборот, зачастую не имеют равновесия Нэша в чистых стратегиях. В таких играх каждый игрок стремится действовать непредсказуемо и поэтому использует смешанную стратегию с определенным распределением вероятностей на своем множестве чистых стратегий. Вероятности применения чистых стратегий в смешанной стратегии каждого игрока вычисляются с помощью свойства безразличия соперника, которое гласит, что в игре против равновесной смешанной стратегии данного игрока соперник должен получать равные ожидаемые выигрыши от всех своих чистых стратегий. Графики кривых наилучших ответов можно использовать для отображения всех равновесий в смешанных стратегиях (а также в чистых стратегиях) той или иной игры.

В играх с ненулевой суммой также могут присутствовать равновесия в смешанных стратегиях, которые можно рассчитать на основании свойства безразличия соперника и проиллюстрировать с помощью кривых наилучших ответов. Но мотивация к поддержанию безразличия соперника в этих играх слабее или отсутствует вообще, поэтому такие равновесия менее привлекательны для игроков и обычно неустойчивы.

Смешанные стратегии — это частный случай непрерывных стратегий, но им свойственны дополнительные аспекты, заслуживающие специального изучения. Равновесия в смешанных стратегиях можно интерпретировать как исходы игры, в которых каждый игрок имеет правильные убеждения в отношении вероятностей, с которыми другой игрок выбирает среди своих базовых чистых стратегий. Кроме того, при изменении выигрышей игроков равновесия в смешанных стратегиях могут иметь ряд свойств, противоречащих здравому смыслу.

Если в распоряжении одного игрока три стратегии, а другого — только две, первый, как правило, использует в равновесной смешанной стратегии всего две чистые стратегии. Если у обоих игроков по три (или более) чистые стратегии, в равновесных комбинациях стратегий может быть указана положительная вероятность применения их всех или только их подмножества. Все стратегии, активно используемые в смешанной стратегии, обеспечивают игроку равный ожидаемый выигрыш в игре против равновесной смешанной стратегии соперника; все неиспользованные стратегии гарантируют более низкий ожидаемый выигрыш. В крупных играх такого рода бывают случаи, когда равновесная комбинация стратегий остается неопределенной.

При применении смешанных стратегий игрокам нельзя забывать, что их система рандомизации ни в коем случае не должна быть предсказуемой. Крайне важно избегать чрезмерного чередования действий. Лабораторные эксперименты обеспечивают только слабую поддержку применения смешанных стратегий. Тем не менее равновесия в смешанных стратегиях позволяют получить достоверные прогнозы во многих играх с нулевой суммой с участием опытных профессиональных спортсменов.

Ключевые термины

Ожидаемый выигрыш

Свойство безразличия соперника

Упражнения с решениями

S1. Рассмотрим следующую игру:

a) Какую игру она больше всего напоминает: розыгрыш очка в теннисе, игру в доверие или игру в труса?

b) Найдите все равновесия Нэша в этой игре.

S2. В следующей таблице представлены выраженные в денежных суммах выигрыши в игре с одновременными ходами с двумя участниками:

a) Найдите равновесие Нэша в смешанных стратегиях в этой игре.

b) Определите ожидаемые выигрыши игроков в этом равновесии.

c) Ровена и Колин вместе получают максимальную сумму денег, когда Ровена выбирает «вниз». Тем не менее в равновесии она не всегда применяет эту стратегию. Почему? Можете ли вы придумать способы получения более согласованного исхода игры?

S3. Вспомните , где говорилось о пожилой даме, которой нужно было перейти улицу, а два игрока одновременно решали, предлагать ли ей помощь. Если вы выполнили это упражнение, значит, нашли все равновесия Нэша в чистых стратегиях. Теперь найдите равновесие в смешанных стратегиях.

S4. Просмотрите описание игры в теннис в данной главы. Вспомните, что, согласно равновесию Нэша в смешанных стратегиях, найденному в этом разделе, Эверт выбирает стратегию ПЛ с вероятностью 0,7, а Навратилова с вероятностью 0,6. Предположим, что чуть позже во время матча Эверт получает травму, из-за чего ее удары по линии становятся гораздо медленнее, а значит, Навратиловой их легче отражать. Выигрыши в этой игре представлены в следующей таблице.

a) По сравнению с игрой до получения травмы (см. ) стратегия ПЛ кажется теперь менее привлекательной для Эверт. Как думаете, в новом равновесии в смешанных стратегиях Эверт будет выбирать ее чаще, реже или так же, как раньше? Обоснуйте свой вывод.

b) Найдите равновесную комбинацию стратегий каждой участницы игры. Какова ожидаемая ценность данной игры для Эверт?

c) Чем отличаются равновесные комбинации, найденные в пункте b, от равновесных комбинаций в исходной игре и от вашего ответа на вопрос в пункте а? Объясните, почему изменилась или не изменилась каждая комбинация.

S5. В представлена упрощенная версия игры в бейсбол, а в пункте с указано, что в этой игре с одновременными ходами отсутствует равновесие Нэша в чистых стратегиях. Это объясняется тем, что у питчеров и бэттеров противоположные цели: питчеру нужно бросить мяч мимо бэттера, а бэттеру необходимо отбить этот мяч. Таблица игры выглядит так:

a) Найдите равновесие Нэша в смешанных стратегиях в этой упрощенной версии игры в бейсбол.

b) Определите ожидаемые выигрыши каждого игрока в этом равновесии.

c) Предположим, питчер попытается улучшить ожидаемый выигрыш в равновесии в смешанных стратегиях, замедлив свой фастбол таким образом, что это делает его похожим на керв. В итоге выигрыш бэттера в ячейке «ожидать фастбол — бросить фастбол» изменится с 0,30 до 0,25, а выигрыш питчера скорректируется соответственно. Может ли такое изменение улучшить ожидаемый выигрыш питчера? Тщательно обоснуйте свой ответ. Кроме того, объясните, почему замедление фастбола может (или не может) улучшить ожидаемый выигрыш питчера в этой игре.

S6. Несмотря на опасность игры в труса (см. ), Джеймс и Дин решают повысить ее эмоциональный накал (и ставки), стартуя на автомобилях с большего расстояния друг от друга. Так они смогут дольше держать зрителей в напряжении и сильнее разогнаться, прежде чем дело дойдет (или не дойдет) до серьезного столкновения. В связи с этим в новой таблице игры указан более высокий штраф за столкновение.

a) Найдите равновесие Нэша в смешанных стратегиях для этой более опасной версии игры в труса. Джеймс и Дин выбирают стратегию «ехать прямо» чаще или реже по сравнению с игрой, таблица которой представлена на ?

b) Определите ожидаемый выигрыш каждого игрока в случае равновесия в смешанных стратегиях, найденного в пункте a.

c) Джеймс и Дин решают разыгрывать игру в труса многократно (например, в присутствии разных групп зрителей из числа безрассудной молодежи). Более того, дабы избежать столкновения, они вступают в сговор и чередуют два равновесия в чистых стратегиях. Каким будет средний выигрыш ткаждого из них в случае такого сговора, если они сыграют четное количество игр? Он лучше или хуже выигрыша, на который они могут рассчитывать при равновесии в смешанных стратегиях? Почему?

d) После того как Джеймс и Дин несколько недель не играли в вариант игры в труса, описанный в пункте с, они договариваются сыграть снова. Однако к этому времени оба совершенно забывают, какое равновесие Нэша в чистых стратегиях разыгрывали в последний раз, и ни один из них этого не осознает, пока не взревут двигатели автомобилей перед самым началом игры. Вместо того чтобы играть в соответствии с равновесием Нэша в чистых стратегиях, каждый из них подбрасывает монету, чтобы решить, какую стратегию выбрать. Чему равен ожидаемый выигрыш Джеймса и Дина, если каждый из них смешивает стратегии в пропорции 50 на 50 таким способом? Как он соотносится с ожидаемыми выигрышами в случае равновесной комбинации стратегий? Объясните, почему эти выигрыши остаются неизменными или отличаются от выигрышей, вычисленных в пункте с.

S7. В продемонстрировано, как построить график кривых наилучших ответов в игре с розыгрышем очка в теннисе. В отмечено, что при наличии множества равновесий их можно определить по пересечениям кривых наилучших ответов. Для игры «битва полов», представленной на , постройте графики наилучших ответов Гарри и Салли на координатной плоскости с осями p и q. Обозначьте все равновесия Нэша.

S8. Рассмотрите следующую игру:

a) При каких значениях x в этой игре есть единственное равновесие Нэша? Найдите его.

b) При каких значениях x в этой игре есть равновесие Нэша в смешанных стратегиях? С какой вероятностью, выраженной через x, каждый игрок будет выбирать стратегию «да» в равновесии в смешанных стратегиях?

c) Можно ли назвать эту игру при значениях x, найденных в пункте а, примером игры в доверие, игры в труса или игры наподобие тенниса? Обоснуйте свой ответ.

d) Пусть x = 3. Постройте график кривых наилучших ответов Ровены и Колина на координатной плоскости с осями p и q. Обозначьте все равновесия Нэша в чистых и смешанных стратегиях.

e) Пусть x = 1. Постройте график кривых наилучших ответов Ровены и Колина на координатной плоскости с осями p и q. Обозначьте все равновесия Нэша в чистых и смешанных стратегиях.

S9. Рассмотрите следующую игру:

a) Постройте график ожидаемых выигрышей от каждой из стратегий профессора Плама как функции р-комбинации миссис Пикок.

b) При каком диапазоне значений p стратегия «револьвер» обеспечивает профессору Пламу более высокий ожидаемый выигрыш, чем стратегия «нож»?

c) При каком диапазоне значений p стратегия «револьвер» обеспечивает ему более высокий ожидаемый выигрыш, чем стратегия «гаечный ключ»?

d) Какие чистые стратегии профессор Плам использует в своей равновесной комбинации? Почему?

e) Найдите равновесие Нэша в смешанных стратегиях в этой игре.

S10. Многие из вас наверняка знакомы с детской игрой «камень, ножницы, бумага». В ней два игрока одновременно выбирают свой «камень», «ножницы» или «бумагу», складывая ладони так, чтобы их форма напоминала один из этих вариантов. Счет в игре ведется следующим образом. Игрок, выбравший «ножницы», побеждает игрока, выбравшего «бумагу» (потому что ножницы режут бумагу). Игрок, выбравший «бумагу», побеждает игрока, выбравшего «камень» (поскольку бумага обертывает камень). Игрок, выбравший «камень», побеждает игрока, выбравшего «ножницы» (потому что камень разбивает ножницы). Допустим, в каждом отдельном розыгрыше игры на кону стоят 10 очков. Возможные исходы игры представлены в следующей таблице выигрышей:

a) Найдите равновесие в смешанных стратегиях в этой игре.

b) Предположим, Лиза объявила, что применит комбинацию стратегий, в которой вероятность выбора стратегии «камень» составляет 40%, «ножницы» — 30% и «бумага» — 30%. Определите наилучший ответ Барта на такой выбор стратегий. Объясните, почему ваш ответ резонный, основываясь на ваших знаниях о смешанных стратегиях.

S11. Вспомните игру между торговцами мороженым на пляже из . В ней мы нашли два асимметричных равновесия в чистых стратегиях. В данной игре есть также симметричное равновесие в смешанных стратегиях.

a) Составьте таблицу этой игры пять на пять.

b) Исключите доминируемые стратегии и объясните, почему их не следует применять в равновесии.

c) Используйте ответ, полученный в части (b), чтобы найти равновесие в смешанных стратегиях в этой игре.

S12. Допустим, в игре в пенальти из данной главы в распоряжении бьющего игрока шесть стратегий: бить высоко и налево (ВЛ), низко и налево (НЛ), высоко и в центр (ВЦ), низко и в центр (НЦ), высоко и направо (ВП), а также низко и направо (НП). Вратарь по-прежнему располагает тремя стратегиями: двигаться налево от бьющего игрока (Л), двигаться направо (П) и оставаться в центре (Ц). Проценты успешных действий игроков приведены в следующей таблице:

Ваша задача — подтвердить, что в равновесии в смешанных стратегиях данной игры вратарь использует каждую из стратегий Л и П в 42,2% случаев, а стратегию Ц в 15,6% случаев, тогда как бьющий игрок применяет каждую из стратегий НЛ и НП в 37,8% случаев, а стратегию ВЦ в 24,4% случаев.

a) С учетом предложенной смешанной стратегии вратаря вычислите ожидаемый выигрыш бьющего игрока от каждой из его шести чистых стратегий и с учетом предложенной смешанной стратегии бьющего игрока ожидаемый выигрыш вратаря от каждой из его трех стратегий. (Для простоты используйте только три значащие цифры.)

b) На основании ответа, полученного в пункте а, объясните, почему смешанная стратегия вратаря — наилучший ответ на предложенную смешанную стратегию бьющего игрока и наоборот.

c) Воспользовавшись полученными выше ответами, объясните, почему предложенные стратегии образуют равновесие Нэша.

d) Вычислите равновесный выигрыш игрока, выполняющего пенальти.

S13 (дополнительное упражнение). В в контексте игры в доверие мы показали, что изменение выигрышей Салли не меняет пропорций, в которых она смешивает чистые стратегии в равновесии, — ее равновесная комбинация зависит только от выигрышей Гарри. В данном упражнении вам предстоит доказать, что это общий результат для всех равновесий в смешанных стратегиях в играх два на два. Рассмотрим общий случай игры с ненулевой суммой два на два, таблица выигрышей которой представлена ниже.

a) Предположим, в этой игре есть равновесие в смешанных стратегиях. Определите вероятность того, что Ровена выберет в равновесии стратегию «вверх» как функцию приведенных в таблице выигрышей.

b) Определите вероятность того, что Колин выберет стратегию «налево» в равновесии.

c) Объясните, как полученные вами результаты показывают, что равновесные комбинации каждого игрока зависят только от выигрышей другого игрока.

d) Каким условиям должны удовлетворять выигрыши, чтобы в данной игре действительно присутствовало равновесие в смешанных стратегиях?

S14 (дополнительное упражнение). Вспомните , основанное на сцене в баре из фильма «Игры разума». Здесь мы проанализируем равновесия в смешанных стратегиях в этой игре, когда в нее играют n > 2 молодых людей.

a) Начните с рассмотрения симметричного случая, когда каждый из n молодых людей самостоятельно пытается привлечь внимание одинокой блондинки с вероятностью P, зависящей от условия, согласно которому каждому молодому человеку должно быть безразлично, какую из двух чистых стратегий выбрать — «блондинка» или «брюнетка», с учетом того, что все остальные игроки смешивают стратегии. Какое условие гарантирует безразличие каждого игрока? Найдите равновесное значение P в этой игре.

b) В данной игре есть также ряд асимметричных равновесий в смешанных стратегиях. В них каждый из m < n молодых людей пытается привлечь внимание блондинки с вероятностью Q, а остальные n – m игроков добиваются расположения брюнеток. Какое условие гарантирует безразличие m молодых людей с учетом действий остальных игроков? Какое условие должно выполняться, чтобы оставшиеся n – m игроков не отказались от применения чистой стратегии выбора брюнетки? Чему равно равновесное значение Q в случае асимметричного равновесия?

Упражнения без решений

U1. В американском футболе команда нападения может либо совершать пробежку с мячом, либо делать пас, тогда как команда защиты может ожидать (и подготовиться) либо пробежку, либо пас. Предположим, ожидаемые выигрыши обеих команд (в ярдах) за каждый отдельно взятый даун составляют:

a) Докажите, что в этой игре нет равновесия Нэша в чистых стратегиях.

b) Найдите в ней единственное равновесие Нэша в смешанных стратегиях.

c) Объясните, почему комбинация стратегий команды нападения отличается от комбинации стратегий команды защиты.

d) Сколько ярдов предположительно может набрать команда нападения в случае равновесия?

U2. Накануне крайнего срока сдачи работ профессор получает электронное письмо от одного из студентов, который утверждает, что застрял с решением одной из задач, просидев над ней больше часа. Профессор не против помочь студенту, если тот действительно работает, но отказал бы в помощи, зная, что тот просто пытается выудить подсказку. Учитывая время получения письма, профессор мог бы просто сделать вид, что прочитал его значительно позже. Очевидно, что студент предпочел бы получить помощь независимо от того, решал он задачу или нет. Но если так ее и не дождется, то предпочтет не усугублять проблему и приступит к работе, поскольку задачи необходимо сдать завтра. Предположим, участники этой игры получат следующие выигрыши:

a) Найдите равновесие Нэша в смешанных стратегиях в этой игре.

b) Вычислите ожидаемый выигрыш каждого из игроков.

U3. В описывается игра «чет или нечет», в которой нет равновесия Нэша в чистых стратегиях. Однако в ней есть равновесие в смешанных стратегиях.

a) Если Анна выберет 1 (выбросит один палец) с вероятностью p, каков ожидаемый выигрыш Брюса от выбора 1, выраженный через p? Чему равен его ожидаемый выигрыш от выбора 2?

b) При каком уровне p Брюсу будет безразлично, какую стратегию выбрать — 1 или 2?

c) Если Брюс сыграет 1 с вероятностью q, при каком уровне q Анне будет безразлично, какую стратегию выбрать — 1 или 2?

d) Запишите равновесие в смешанных стратегиях этой игры. Чему равен в ней ожидаемый выигрыш каждого игрока?

U4. Вернемся снова к соперничеству между теннисистками Эверт и Навратиловой, о котором шла речь в . Через много месяцев они опять встречаются на очередном турнире. Эверт восстановилась после травмы (см. ), а Навратилова в это же время усердно улучшала навыки защиты против подач по линии. Ниже представлена таблица выигрышей в этой игре.

a) Найдите равновесную комбинацию каждого игрока в этой игре.

b) Что произошло с р-комбинацией Эверт по сравнению с игрой, представленной в ? Почему?

c) Какова ожидаемая ценность данной игры для Эверт? Почему она отличается от ожидаемой ценности первоначальной игры, рассматриваемой в ?

U5. В данной главы шла речь о смешивании стратегий в контексте «битвы полов» между Гарри и Салли.

a) Как думаете, что произойдет с равновесными значениями p и q, вычисленными в этой главе, если Салли решит, что Local Latte ей действительно нравится гораздо больше, чем Starbucks, поэтому теперь в ячейке Local Latte, Local Latte указаны выигрыши 1, 3? Объясните логику своих рассуждений.

b) Найдите новые равновесные значения p и q. Чем они отличаются от равновесных значений p и q в исходной игре?

c) Определите ожидаемый выигрыш каждого игрока в случае нового равновесия в смешанных стратегиях.

d) Как вы считаете, могли бы Гарри и Салли разыграть равновесие в смешанных стратегиях в новой версии игры? Обоснуйте свой ответ.

U6. Рассмотрим следующий вариант игры в труса, в котором выигрыш Джеймса от стратегии «ехать прямо» при условии, что Дин выбирает стратегию «свернуть», равен 2, а не 1.

a) Найдите равновесие в смешанных стратегиях в этой игре, в том числе ожидаемые выигрыши игроков.

b) Сравните полученные результаты с результатами в исходной игре в данной главы. Вероятность того, что Дин выберет «ехать прямо», повысилась? А как насчет вероятности того, что Джеймс «поедет прямо»?

c) Что произошло с ожидаемыми выигрышами двух игроков? Эти различия между равновесными исходами парадоксальны с точки зрения новой структуры выигрышей? Объясните, как можно трактовать ваши выводы в контексте принципа безразличия соперника.

U7. Постройте графики наилучших ответов Джеймса и Дина для игры в труса, представленной на , на координатной плоскости с осями p и q. Обозначьте все равновесия Нэша.

U8. a) Найдите все равновесия Нэша в чистых стратегиях в следующей игре:

b) Найдите равновесие в смешанных стратегиях в этой игре. Чему равны ожидаемые выигрыши игроков в этом равновесии?

U9. Рассмотрите измененную версию игры из .

b) Какие чистые стратегии использует профессор Плам в своей равновесной комбинации? Почему?

c) Найдите равновесие Нэша в смешанных стратегиях в этой игре.

d) Обратите внимание, что данная версия игры незначительно отличается от игры, представленной в . В чем различие между этими двумя играми? Объясните, почему интуиция подсказывает вам, что равновесный исход игры изменился по сравнению с исходом игры в .

U10. Рассмотрите измененную версию игры «камень, ножницы, бумага», в которой Барт получает приз, когда выигрывает, применив стратегию «камень». Если Барт выберет «камень», а Лиза — «ножницы», он получит в два раза больше очков по сравнению с тем, что оба получили бы при любом ином подходе. Новая матрица выигрышей выглядит так:

a) Найдите равновесие в смешанных стратегиях в этой версии игры.

b) Сравните полученный результат с равновесием в смешанных стратегиях из упражнения S10. Как вы можете объяснить различия между ними?

U11. Рассмотрите следующую игру.

a) Есть ли в ней равновесие в чистых стратегиях? Если да, то какое?

b) Найдите равновесие в смешанных стратегиях в этой игре.

c) В действительности в этой игре два равновесия в смешанных стратегиях. Найдите то, которое вы не нашли в пункте b. (Подсказка: в одном из этих равновесий один из игроков выбирает смешанную стратегию, тогда как другой — чистую.)

U12. Упрямые Джеймс и Дин снова играют в более опасный вариант игры в труса (см. ). Они заметили, что их выигрыш («храбрец») зависит от количества зрителей. Чем их больше, тем больше славы и похвал получает тот, кто едет прямо. Безусловно, в случае меньшего количества зрителей наблюдается противоположный эффект. Пусть k > 0 — это выигрыш игрока, который показал себя «храбрецом». Теперь эту игру можно представить так:

a) С какой вероятностью, выраженной через k, каждый водитель выбирает стратегию «свернуть» в равновесии Нэша в смешанных стратегиях? Применяют ли Джеймс и Дин эту стратегию чаще или реже по мере увеличения значения k?

b) Чему равна ожидаемая ценность игры для каждого игрока, выраженная через k, в равновесии Нэша в смешанных стратегиях, найденном в пункте а?

c) При каком значении k и Джемс, и Дин смешивают в данном равновесии стратегии в соотношении 50 на 50?

d) Насколько большим должно быть значение k, чтобы средний выигрыш был положительным при схеме чередования, о которой шла речь в ?

U13 (дополнительное упражнение). Вспомните игру из , где Ларри, Мо и Керли могут покупать билеты с возможностью получить приз в размере 30 долларов. Мы нашли в ней шесть равновесий Нэша в чистых стратегиях. В данном упражнении вам предстоит найти симметричное равновесие в смешанных стратегиях.

a) Исключите слабо доминируемую стратегию каждого игрока. Объясните, почему игрок никогда не использовал бы ее в своей равновесной комбинации стратегий.

b) Найдите равновесие в смешанных стратегиях.

U14 (дополнительное упражнение). В и показано, что в играх с нулевой суммой, таких как соперничество Эверт и Навратиловой в теннисе, изменение выигрышей одного игрока иногда приводит к неожиданным или парадоксальным изменениям в равновесной комбинации стратегий. Но что происходит при этом с ожидаемой ценностью игры? Рассмотрим следующую общую форму игры с нулевой суммой с участием двух игроков:

Предположим, в этой игре нет равновесия Нэша в чистых стратегиях, а значения a, b, c и d больше или равны 0. Может ли увеличение значения одной из переменных a, b, c и d обусловить снижение ценности игры для Ровены? Если нет, докажите это. Если да, приведите пример.

Назад: ГЛАВА 6. Сочетание последовательных и одновременных ходов

Дальше: Приложение. Вероятность и ожидаемая полезность