Влияние частоты наград на повторяемость целевого поведения

Очень многие исследования в бихевиоризме посвящены тому, в какой момент и с какой частотой давать награды для достижения наибольшего эффекта.

Хуже всего с точки зрения повторяемости целевого поведения действуют награды через фиксированные промежутки времени (например, зарплата или награждение игрока за ежедневный вход). Причём чем больше проходит времени между такими наградами, тем меньше шансов добиться целевого поведения.

Рис. 16. Награды через фиксированные промежутки времени

Гораздо эффективнее действует схема, когда игроков регулярно награждают за целевое поведение. Это может быть, например, оплата, зависящая от количества и качества проделанной работы (сдельная зарплата) или фиксированная награда за действие в игре (за изготовление каждого снадобья можно получить по 10 монет).

Рис. 17. Награда за фиксированные действия

Ещё более эффективных и долгосрочных результатов можно добиться несистематическими наградами, выдаваемыми в случайном порядке. Животные способны очень долго продолжать действовать целевым образом в надежде на награду.

Рис. 18. Награда через случайные интервалы

Например, дельфины будут гораздо дольше, чем в ситуации с фиксированными вознаграждениями, заплывать в дальний угол бассейна (целевое поведение), если награду давать им случайным образом [23]. Они будут это делать ещё долго и после того, как вознаграждения прекратятся вовсе. Крысы в экспериментах Скиннера, когда нажатие на рычаг не гарантировало появление пищи, начинали нажимать на него чаще [26].

Награда через случайные интервалы. Говорят, что Скиннер открыл эффект от несистематического награждения случайно [57]. Как-то раз у него кончились гранулы, которыми он подкармливал крыс. Чтобы не прекращать эксперименты, он решил давать им эти гранулы каждый десятый раз и обнаружил, что крысы ведут себя совершенно иначе. Это привело к открытию, оказавшему очень большое влияние на развитие многих сфер, в том числе и игр.

Как и крысы, люди надеются, что в случае, если после нажатия рычага подкрепление не поступает, уж при следующем-то нажатии оно точно появится. Или через раз. Или ещё на следующий раз.

Понятнее всего это становится на примере азартных игр, когда люди могут подолгу играть, несмотря на регулярные проигрыши, в надежде на скорую награду.

В примере с изготовлением снадобий дольше всего игроки будут этим заниматься, если им давать от 1 до 20 монет за каждое снадобье, но иногда давать сразу 100 или 200 монет.

Знаете ли вы, что, несмотря на запрет азартных игр, годовая выручка всех игровых автоматов Японии в 4 раза больше выручки всех игорных заведений мира, вместе взятых? На каждые 600 человек населения страны приходится по подпольному игорному заведению. На каждые 30 жителей Японии приходится по одному игровому автомату.

Если подкрепление не поступает слишком долго, наступает разочарование. Если подкрепления будет слишком много или оно будет гарантированным, нажимать на рычаг игрового автомата будут реже или перестанут вовсе.

Игровые автоматы по типу «однорукого бандита» запрограммированы на то, чтобы выплачивать игрокам 85–90 % от «вложенных» денег, чтобы они не почувствовали разочарование. Если эта цифра меньше 80 %, игроки начинают чувствовать подвох и перестают играть.

Было ли в вашей жизни такое, что вы не получали награду, а продолжали действовать в ожидании, что вот-вот её получите? Вспомните и опишите ваши ощущения. Если у вас лично такого не было, спросите у друзей. Помните, что, если вы хотите обсудить ваши мысли с авторами книги и другими читателями, вы можете использовать хештег #why42book.

Конечно, даже награды самого эффективного типа – несистематические – работают неодинаково с разными людьми. Крысы и голуби после прекращения подкрепления, если оно было нерегулярным, могут сотни раз нажимать на педаль, надеясь на возобновление подачи лакомства, а с людьми это срабатывает не всегда. Бернард Вайнер, создатель теории атрибуции, предположил, что поведение людей формируется не только «расписанием подкреплений», но и тем, как люди понимают причины происходящего [10]. Те, кто считает, что это временно (сломалось оборудование), продолжают нажимать педаль, те, кто думают, что это навсегда (эксперимент окончен), перестают делать это.

Хотя то, что люди реагируют на подкрепления не так, как животные в лаборатории, стало понятно довольно скоро после того, как появилась концепция оперантного обусловливания, бихевиоризм популярен даже сегодня. Давайте разберёмся, почему.

Причины привлекательности бихевиоризма

Предположим, двое познакомились, и один любезен в обращении с другим; это предопределяет ответную любезность, а значит, первый будет ещё более склонен обойтись с этим другим мило и приязненно. …и в какой-то момент эти двое могут достичь точки, когда чрезвычайно расположены приязненно обращаться друг с другом и не причинять друг другу ничего плохого. И, как я полагаю, это-то и называют «быть влюбленным».

Беррес Скиннер, бихевиорист (цит. по [15])

Важная особенность бихевиоризма в том, что в нём не принимаются во внимание какие-либо внутренние мотивы или их появление объясняется с помощью внешних причин. Именно подобные рассуждения и приводят к появлению таких выводов, как в эпиграфе к этому разделу.

С точки зрения бихевиористов скиннеровского толка, поведение любого живого существа – это следствие совокупности воздействия генетических особенностей и окружающей среды (включая и внешние обстоятельства, повлиявшие на формирование предыдущего опыта).

Бихевиоризм подкупает своей невероятной простотой применения. Что может быть проще идеи контроля поведения с помощью награждений за нужные нам действия и наказаний за те, которые для нас нежелательны?

Можно сказать, что основной смысл, идея бихевиоризма – в том, чтобы достичь поведения, невозможного при нормальном развитии событий, за счет минимальных внешних средств.

То, что эта схема пряника и кнута не срабатывает даже на оголодавших крысах или голубях в закрытом ящике, мало кого останавливает в новых попытках применить её по отношению к гораздо более сложным организмам – людям. Если же поощрения почему-то не работают, их обычно предлагают применять в бо́льших объёмах, чаще или в других последовательностях [77].

Один из главных минусов бихевиористского подхода в том, что поддержание целевого поведения требует постоянной поддержки извне и потому очень неустойчиво. В долгосрочной перспективе такой подход очень неэффективен, хотя поначалу может дать отличный результат. Самым показательным примером будет, вероятно, жетонная экономика.