Беспокойный мир
Стоит только познакомиться с многорукими бандитами, как вы начнете видеть их повсеместно. Редко когда мы принимаем «изолированное» решение, результаты которого не будем использовать позже. Поэтому логично будет поинтересоваться, насколько в целом люди настроены решать подобные задачи, – вопрос, который широко изучался психологами и поведенческими экономистами.
Представляется, что люди склонны к избыточным исследованиям: новому уделяется несоизмеримо больше внимания, чем лучшему. Наиболее ярко данный феномен был продемонстрирован в 1966 году в эксперименте Амоса Тверски и Варда Эдвардса, когда испытуемым показали ящик с двумя лампочками на нем и сказали, что каждая лампочка будет загораться на какой-то определенный (но неизвестно какой) отрезок времени. Затем им дали 1000 шансов либо наблюдать, какая из лампочек загорится, либо сделать ставку на тот или иной результат, не видя самих лампочек. (В отличие от более традиционной схемы с многоруким бандитом, здесь невозможно было выбрать вариант, который был бы одновременно и заключением пари, и наблюдением; участники только в самом конце могли узнать, победила их ставка или нет.) Это чистой воды поединок между исследованием и эксплуатацией, сбором информации и ее использованием. В основном люди выбирали разумную стратегию, наблюдая за лампочками некоторое время, а затем делая ставки на кажущийся им наиболее вероятным исход. Но они неизменно тратили на наблюдение больше времени, чем требовалось. Насколько же больше? В первом эксперименте одна лампочка горела 60 % времени, а другая 40 %; разница не слишком заметна. В этом случае люди предпочли 505 раз в среднем наблюдать, а в остальных 495 попытках делать ставки. Но математика говорит, что им следовало бы начинать спорить после 38 наблюдений, оставляя себе 962 шанса выиграть пари.
Другие исследования привели к аналогичным выводам. В 1990-х исследователи из Уортонской школы бизнеса Роберт Мейер и Янг Ши провели эксперимент, в котором людям предлагалось на выбор два варианта: один с верным шансом на успех, а другой с неизвестным, а именно две авиакомпании: перевозчик с именем, всегда прилетающий по расписанию, и совершенно новая авиакомпания, не имеющая пока репутации. С учетом цели максимизации количества прибывших вовремя рейсов за установленный период времени математически оптимальной стратегией было бы летать новой авиакомпанией при условии, что преимущества перевозчика с именем не столь очевидны. Если в какой-то момент станет ясно, что известная авиакомпания лучше (то есть если индекс Гиттинса у новичка падает ниже показателей «ветерана»), тогда вы немедленно переключаетесь на авиакомпанию с именем и больше никогда не изменяете своему выбору. (Если в этой ситуации вы не сможете получить больше информации о компании-новичке, как только перестанете с ней летать, у нее не будет шансов реабилитироваться.) Но в процессе эксперимента люди предпочитали летать неизвестной авиакомпанией слишком редко, когда все было хорошо, и слишком часто, когда все было плохо. Они также не ставили на ней крест, продолжая периодически выбирать ее, особенно в ситуациях, когда ни один перевозчик не прибывал вовремя по расписанию. Все это лишний раз подтверждает тенденцию к чрезмерному исследованию.
И наконец, психологи Марк Стейверс, Майкл Ли и Э.-Я. Вагенмакерс провели эксперимент с четырехруким бандитом, предложив группе людей выбрать, за какой рычаг дергать, предоставив для этого 15 попыток. Затем они классифицировали стратегии, которые, как им показалось, использовали участники. Итоги показали, что 30 % участников были наиболее близки к оптимальной стратегии, 47 % предпочитали принцип «победи – закрепи успех, проиграл – переключись» и 22 % хаотично выбирали между выбором нового рычага и рычагом лучшего до сих пор автомата. Это опять-таки согласуется со склонностью к чрезмерным исследованиям, так как и принцип «закрепи победу», и случайный выбор рычага заставляют людей пробовать нечто отличное от того, что привело к успеху в последней игре, хотя вместо этого они могли бы, наоборот, наслаждаться результатами. Таким образом, в то время как мы склонны нанять нового секретаря слишком быстро, мы, как правило, прекращаем летать новой авиакомпанией слишком поздно. Но так же как работа без секретаря имеет свои издержки, так же есть свои издержки у слишком быстрого привыкания к новой авиакомпании: мир может измениться.
Обычная проблема многорукого бандита предполагает, что вероятность выиграть у автомата остается неизменной на протяжении долгого времени. Но это не всегда верно относительно авиакомпаний, ресторанов или прочих ситуаций, где люди должны делать повторный выбор. Если вероятность выигрыша на различных автоматах меняется со временем (так называемый беспокойный бандит), то задача становится значительно сложнее. (Настолько сложнее, что простого алгоритма решения, по сути, не существует, и считается, что его и не будет никогда.) Один из аспектов этой сложности заключается в том, что речь больше не идет об исследовании в течение какого-то отрезка времени, а затем – эксплуатации: когда мир меняется, продолжать исследовать может быть наилучшим выходом. Возможно, через несколько лет стоит вновь посетить разочаровавший вас ресторан. А вдруг там поменялось руководство?
В своей знаменитой книге «Прогулки» Генри Дэвид Торо размышлял о том, что предпочитает, путешествуя, не уезжать далеко от дома, что никогда не уставал от окрестностей и всегда находил нечто новое или удивительное в пейзажах Массачусетса. «Существует своего рода гармония между картинами пейзажа в радиусе десяти миль, в маршруте послеобеденной прогулки, в веке человеческой жизни, – писал он. – Они никогда не будут достаточно хорошо вам знакомы».
Жизнь в беспокойном мире требует от каждого из нас доли неугомонности. До тех пор пока мир продолжает меняться, вы не должны прекращать исследовать его.
Тем не менее алгоритмы, заточенные под стандартную проблему многорукого бандита, пригождаются и в беспокойном мире. Такие методы, как индекс Гиттинса или верхний доверительный предел, предлагают довольно верные решения, особенно если выигрыш не слишком меняется с течением времени. А большинство выгод в этом мире сегодня гораздо более статичны, чем когда-либо были. Горсть ягод будет спелой неделю, а потом сгниет, но, как сказал Энди Уорхол, «кола – это кола». Инстинкты, заложенные эволюцией для жизни в постоянном течении, не всегда окажутся нужными в эпоху промышленной стандартизации.
Производные понятия от классической формы проблемы – баланс между исследованием и эксплуатацией, важность интервала, высокая стоимость варианта 0: 0, минимизация сожалений – вкладывают новый смысл не только в задачи, с которыми нам приходится сталкиваться, но и во всю нашу жизнь.