3.5
Режимы подкрепления
Режимов подкрепления существует несколько, но мы рассмотрим их не все, а лишь те, без которых дрессировка и обучение домашнего любимца невозможны.
Постоянный режим подкрепления: за каждую правильную реакцию собаки вы даете ей награду. Этот режим подкрепления используется при обучении новому навыку. Однако чем дольше вы используете постоянный режим подкрепления, тем сложнее от него уйти в дальнейшем.
Режим подкрепления вариабельного количества повторений (его еще называют вариабельным режимом подкрепления) – это режим, при котором подкрепляется постоянно меняющееся число удачных действий. То есть, допустим, вы решили подкреплять в среднем каждые 5 повторений, однако момент подкрепления будет постоянно плавать между 1 и 10 повторениями. Этот режим подкрепления обычно используется после ухода от постоянного режима подкрепления. Интересно то, что этот режим подкрепления формирует наиболее стабильный навык, который собака будет демонстрировать максимально стабильно, чисто и длительно. Подкрепление вариабельного количества повторений зачастую сравнивают с игрой в автомат «однорукий бандит»: вы жмете и жмете на ручку автомата, ожидая, что вот-вот вам улыбнется удача. И однажды она вам улыбается, подкрепляя ваше желание продолжить забрасывать в автомат монетки, надеясь на очередной куш.
Режим дифференциального подкрепления лучшего исполнения поведения – вы подкрепляете наилучшую демонстрацию выученного поведения. Этот тип подкрепления исключительно полезен в дрессировке. Например, ваша собака уже научилась садиться, но чаще всего делает это медленно и нехотя. В рамках режима дифференциального подкрепления лучшего поведения вы будете подкреплять собаку за более быструю или плотную усадку.