Приложение В

Моделирование с помощью алгоритма «многорукий бандит»

Мы рассмотрели характеристики и условия эффективности каждой из стратегий в палитре, смоделировав их действие в различных условиях. В качестве модели бизнес-среды мы использовали так называемую задачу «многорукого бандита», которая дает возможность проанализировать экономику принятия решений в условиях неопределенности. Различные алгоритмические решения данной задачи представляют собой стратегии в палитре.

Задача многорукового бандита унаследовала свое название у хорошо известной задачи в теории принятия решений. Игрок должен выбрать один из нескольких игровых автоматов. В результате он получает определенные знания о выигрыше на некоторых автоматах, но не имеет никакой информации о других. В связи с этим ему придется выбирать между частично известными и неизвестными параметрами. Поэтому данная задача идеально подходит для моделирования баланса между использованием известных вариантов и изучением неизвестных и для тестирования стратегий в условиях неосведомленности и неопределенности.

С технической точки зрения каждый игровой автомат моделируется как распределение вероятностей с заданными средним значением и стандартным отклонением. Со временем эти два параметра могут меняться независимо друг от друга (например, для моделирования полного расходования средств во времени или динамичности среды) и в соответствии с вариантами, выбираемыми одним или несколькими игроками (например, для моделирования конкуренции или формирования среды). Конечно, игрокам неизвестно распределение вероятностей, но они могут со временем его вычислить по мере получения все большего количества значений от каждого автомата. В нашей модели автоматы соответствуют набору вариантов для инвестирования, доходность которых не зависит друг от друга и является неизвестной величиной в тестируемой стратегии.

Изменяя параметры модели, такие как неопределенность распределения дохода, коэффициент и неопределенность изменения средних значений распределений, степень изменения распределений в зависимости от динамики инвестиций и затрат на инвестиции, мы можем смоделировать очень большое число вариантов бизнес-среды. В частности, непредсказуемость моделируется с помощью неопределенности изменения распределений дохода во времени. Пластичность моделируется как изменения доходности в зависимости от повторных инвестиций. Агрессивность моделируется как затраты, связанные с переходом от одного варианта к другому, в зависимости от общего ограничения ресурсов. Таким способом можно смоделировать среду для классического подхода, адаптации, визионерской стратегии, формирования и восстановления.

Стратегии, тестируемые в этих условиях, можно также смоделировать как варианты, которые выбирает вымышленный игрок (или стратег), с учетом информации о доходности, полученной им в результате предыдущих инвестиций. Алгоритмы, на основе которых делается такой выбор, могут меняться в зависимости от того, сколько информации было собрано в результате предыдущих инвестиций, какое значение придается этой информации, сколько усилий и времени тратится на изучение новых вариантов, как корректируется представление о доходности инвестиций и насколько быстро выбирается стратегия для предпочтительного варианта инвестиций. Таким способом можно смоделировать варианты поведения при поиске, адаптации, формировании и сохранении ресурсов, на основе которых строятся пять подходов палитры стратегий.

В частности, классические стратегии моделируются как ограниченный период изучения с последующим выбором предпочтительного варианта инвестиций. Стратегии адаптации соответствует непрерывное распределение части инвестиций для изучения произвольных вариантов. Визионерская стратегия моделируется как глубокое (многоэтапное) изучение различных вариантов с последующим выбором предпочтительного. Стратегия формирования моделируется как циклическое, непрерывное и глубокое изучение различных вариантов. Стратегия восстановления моделируется как быстрый выбор оптимального варианта, который должен быть определен в течение ограниченного периода анализа.

Рисунок С‑1. Моделирование пяти основных стратегий (схема)

Мы провели моделирование эффективности стратегий в каждой среде путем их сравнения друг с другом в различных условиях, описанных в палитре стратегий, и убедились, что канонические подходы действительно оказались оптимальными для соответствующих условий (рисунок С‑1).

Для простоты визуального представления мы сравнили каждую стратегию с базовой стратегией ограниченных исследований: при данной стратегии инвестиции в исследования основаны на результатах тестирования новых вариантов – по одному из каждых десяти этапов. В остальное время используется выявленный на данный момент лучший вариант, определяемый исходя из среднего дохода, полученного за прошедшие десять этапов, в ходе которых использовался какой бы то ни было вариант.

Этот же алгоритм моделирования лежит в основе iOS-приложения к настоящей книге. С его помощью читатели могут развить «мышечную память», выбирая различные стратегии в процессе управления лимонадным киоском в варьирующихся условиях, соответствующих типам среды в палитре стратегий.