Глава 44
Эволюция поведенческой гибкости
О целенаправленном инструментальном научении иногда говорят с точки зрения естественного отбора на уровне личности. Другими словами, научение путем проб и ошибок расширяет способность организмов к выживанию и размножению посредством отбора адаптивного поведения для каждого животного, по аналогии с тем, как естественный отбор расширяет эти способности для вида в целом посредством генетического отбора адаптивных черт строения тела.
Выработка поведения происходит в тех новых ситуациях, исход которых был благоприятным и привел, например, к получению еды или питья в тот момент, когда запасы энергии или жидкости в организме были на исходе или когда животному, столкнувшемуся с опасностью, удалось избежать боли или другого вреда. Тот факт, что поведение может быть необоснованным (то есть не иметь непосредственной связи с целью), является ключевым фактором поведенческой гибкости.
Обычно феномен выработки поведения, которое достигает таких целей, объясняют наличием эмоциональных последствий. Об этом говорил и Дарвин, когда предположил, что эмоциональные психические состояния, которые возникают, если выживание животного под вопросом, помогают определить действия, необходимые для выживания. Торндайк превратил это предположение в принцип формального научения, который назвал законом эффекта, и подчеркнул, что поведение, ведущее к удовлетворению (получению удовольствия), повторяется, а то, что к удовлетворению не ведет (причиняет боль), – нет.
И Дарвин, и Торндайк исходили из древней идеи гедонизма, согласно которой главными движущими силами поведения являются получение удовольствия и избегание боли. В рамках закона эффекта доставляющие удовольствие или боль стимулы превратились в награды и наказания. Поскольку эти термины несут в себе субъективную эмоциональную составляющую, бихевиористы предложили использовать понятие «подкрепители», с помощью которого следует описывать объективные события, повышающие вероятность повторяемости поведения в аналогичной ситуации в будущем (таблица 44.1).
Таблица 44.1. Гедонистический (удовольствие) в сравнении с негедонистическим (подкрепление)
Объяснение выработки инструментального условного рефлекса и роли дофамина в каждом из них
Дарвин понимал, что эмоциональная эволюция должна была проходить посредством воздействия естественного отбора на мозг. Теория триединого мозга Маклина и модель эволюции мозга Эдингера конкретизировали эту догадку. Маклин считал, что благодаря эволюции лимбической системы у млекопитающих появилась способность испытывать эмоции и формировать реакции, связанные с этими чувствами.
Незадолго до того, как Маклин представил свою теорию о лимбической системе, Джеймс Олдс и Питер Милнер выяснили, что у крыс могут вырабатываться произвольные реакции – такие, как нажатие на рычаг, – если, например, ударом тока стимулируют определенную зону мозга (чаще – участки лимбической системы (миндалевидное тело, гипоталамус)) или пути, проводящие к этим участкам такие вещества, как дофамин. Первоначально свои изыскания они описывали определением психологической основы бихевиористского принципа подкрепления, однако Олдс вскоре пошел другим путем. Когда интерес к бихевиоризму начал ослабевать, Олдс опубликовал статью «Центры удовольствий головного мозга», в которой подкрепители снова превратились в гедонистическую награду, основанную на удовольствии. Так удовольствие опять стало объяснением поведенческой гибкости. Впоследствии Рой Уайз предложил идею, согласно которой в основе удовольствия лежит дофамин, который связан как с собственно удовольствием, так и с его подкреплением (см. таблицу 44.1).
В своей чистой форме гедонистические состояния связаны с рецепторами органов чувств, которые распознают отдельные виды стимулов. Например, когда кожа распознает раздражение или повреждение, мы испытываем боль. Детекторы нашей кожи определяют стимулы, которые мы воспринимаем как доставляющие удовольствие, – такие, как легкие прикосновения к спине, рукам, шее или гениталиям, а рецепторы во рту и в носу распознают химические вещества, которые запомнены как приятные или неприятные вкусы и запахи.
Хотя удовольствие и боль часто относят к эмоциям, на самом деле у них иная природа, ведь специальных рецепторов для распознавания страха, гнева, грусти, радости и других эмоций у нас нет, и их значение определяется мозгом. Стимул предполагает эмоциональный опыт, но не определяет его.
Важно отметить, что осознанное чувство боли или удовольствия, которое испытывают люди при активации определенных рецепторов, является одним из многочисленных следствий сенсорных сигналов, которые поступают в мозг. Также они вызывают рефлексы и другие врожденные реакции, повышают активность головного мозга, мотивируют инструментальное поведение и подкрепляют научение. У каждого из этих последствий, включая осознанные ощущения, есть нервные обоснования, и мы не должны допускать, что возникновение одного из неосознанных последствий поведения означает появление осознанного чувства боли или удовольствия. Все, что мы можем измерить у животных, – это последствия поведения. Гораздо труднее измерить сознательные проявления; эту тему мы тщательно обсудим позднее.
На необходимость с осторожностью относиться к пониманию гедонистических состояний указывает такой опыт: если человека с хронической болью отвлечь шуткой, он перестанет испытывать боль, пока смеется. Ноцицепторы реагируют как раньше, но субъективно боль не воспринимается (отвлечением объясняется и польза гипноза для таких пациентов). Кроме того, об осторожности нам напоминают исследования, посвященные воздействию наркотиков, вызывающих зависимость; на сегодняшний день известно, что они вызывают компульсивное потребление, поскольку разрушают привычные контуры в мозге, а не из-за того удовольствия, что человек может испытать, когда пробует такие вещества.
Идея о том, что именно благодаря гедонистическим чувствам появилась возможность гибкого инструментального научения, согласуется с нашими ежедневными переживаниями: когда мы получаем награду, нам хорошо; когда нас наказывают, нам плохо. Правда, остается открытым вопрос, можно ли с помощью этих чувств объяснить, почему поведение, позволяющее получить пищу или избежать боли, закрепляется в виде навыка и повторяется. Я считаю, тому есть другое объяснение, и оно не зависит от гедонистических чувств.
С точки зрения поведения подкрепители – это стимулы, меняющие ценность некоторых других стимулов (в случае павловского обусловливания) или реакций (при инструментальном обусловливании). Возьмем пример с павловским условным рефлексом: подкрепление безусловного стимула меняет способность условного стимула активировать нейроны, с которыми он синаптически соединен. При инструментальном обусловливании подкрепленный безусловный стимул создает связь между нейронами, которые отвечают за обработку стимула, и реакцией, поэтому вероятность того, что в присутствии такого стимула возникнет аналогичная реакция, повышается. Если реакция зависит от безусловного стимула и на тот момент является ценным результатом, она будет целенаправленной; в противном случае перед нами привычка. Такие химические вещества, как дофамин, регулируют такие процессы и играют ключевую роль в подкреплении научения посредством нейробиологического действия на нейроны, а не потому, что в игру вступают такие гедонистические состояния, как удовольствие, боль и прочее. Именно в тот момент, когда Олдс начал сомневаться в идее центра удовольствия, Уайз отказался от принципа дофаминового удовольствия.
Учитывая, что гибкое целенаправленное научение отчетливо проявляется только у птиц и млекопитающих, а они произошли от разных предков-рептилий, такая способность у представителей этих групп, скорее всего, выработалась независимо друг от друга. Давайте попробуем собрать эту историю по кусочкам.
У первых позвоночных были лишь основные поведенческие навыки; животные были способны формировать простые ассоциации между бессмысленными и наполненными смыслом стимулами, а также использовать сохраненные внутренние (когнитивные) представления, чтобы научиться более сложным по своему типу павловским ассоциациям. Они даже были способны научиться инструментальным реакциям с полезным результатом, правда, в форме жесткой привычки. Они так и не сделали шаг в направлении гибкого научения и приобретения новых реакций, сформированных на основе хранения тех представлений, которые связаны с ценным результатом; этот шаг предприняли млекопитающие и птицы. Хотя часто привычки формируются в результате многократного повторения целенаправленных действий, у млекопитающих они могут появиться и без этой фазы. У первых позвоночных этот прямой путь присвоения привычки был единственной дорогой к инструментальному поведению.
Я думаю, традиционное объяснение того, как у животных появилось инструментальное поведение, – а именно что эволюция лимбической системы наделила животных эмоциональными чувствами, с помощью которых они могут оценивать возникающие в жизни ситуации как негативные или позитивные, – неверно, и у меня есть другая гипотеза.
После того как вымерли динозавры, млекопитающие получили возможность свободно выходить на поиски пищи и завоевывать новые ниши, не рискуя сразу быть съеденными хищниками. Однако у кочевого образа жизни были свои трудности, и мозгу снова пришлось адаптироваться. В результате способность использовать когнитивные представления в павловском обусловливании соединилась со способностью к инструментальному научению. Но какие доказательства у нас есть?
Мы знаем, что современные рептилии умеют хранить инструментальные представления о токсичной пище и использовать их в будущем посредством павловского научения. Если такой способностью обладали и те рептилии, от которых произошли млекопитающие, возможно, на ее основе под соответствующими типами селективного давления у млекопитающих появилось целенаправленное поведение – формирование привычки посредством жесткой связи «стимул – реакция» трансформировалось в научение на основе поведенческого результата. У млекопитающих появилась возможность хранить в памяти информацию об удачных и неудачных попытках найти пищу, в том числе о тех местах, где удавалось находить пищу раньше, о соответствующей ценности пищи, найденной в разных местах, а также о полезности и рискованности различных маршрутов.
Питер Даян подчеркивает, что определить способ научения поведению чрезвычайно просто на основе его последствий. Он исходит из принципов искусственно разработанного обучения с подкреплением, используемого для изучения оптимизации поведения искусственных систем на основе полученных результатов. Для того чтобы учиться на последствиях действия, от агента требуется только найти способ создать представление о его последнем действии (состоянии, когда это действие было выбрано) и о том, какое вознаграждение получено (ценность результата), причем ценность в этом контексте – не эмоция или чувство, а просто качественное представление о вознаграждении.
У искусственных агентов расчеты выполняются посредством равенства; животные же для этой цели используют клетки, синапсы, контуры и молекулы своих нервных систем. Главной действующей силой этого нервного расчета ценности является дофамин; когда он попадает к нейронам, формирующим ассоциации между стимулами или между стимулами и реакциями, эти связи усиливаются. Такое влияние дофамина на расчет значения связан не с удовольствием, а, скорее, с корректировкой клеточных реакций нейронов. Удовольствие, когда оно имеет место, является соотносительным понятием, но преимущественно не причиной научения.
У некоторых организмов – в том числе, конечно, у людей – удовольствие способствует подкреплению научения, однако на основе нашего внутреннего опыта нельзя делать обобщений в отношении поведения организмов, внутренний опыт которых для нас непознаваем, особенно если достаточно объяснения с точки зрения бессознательного. Кент Берридж и Мортен Крингельбах, ведущие исследователи-гедонисты, считают, что нервные обоснования поведенческой деятельности, которые обычно используют для определения гедонистических состояний у животных, отражают те простые и незаменимые для выживания механизмы, которые, возможно, выработались задолго до тех дополнительных, благодаря которым у людей появились осознанные чувства. Другими словами, контролирующие поведение гедонистические состояния являются фундаментальными и бессознательными. Как мы увидим впоследствии, у некоторых организмов эти бессознательные состояния могут быть повторно представлены когнитивными системами таким образом, что воспринимаются как осознанные. Правда, я не думаю, что именно такие осознанные чувства обусловливают поведенческую гибкость.
Вопреки расхожему мнению, я считаю, что поведенческая гибкость возникла вследствие эволюции новой когнитивной способности, а именно использования внутренних представлений в связке с инструментальным научением. Способность рассуждать позволила использовать сохраненные в памяти ценности целей, достигнутых в прошлом, для управления поведением в настоящем, причем по-новому и с большей силой.