Книга: Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет
Назад: Мотивация и базальные ганглии
Дальше: Другие формы обучения

Учим парить

В 2016 году мы с Массимо Вергассола из Калифорнийского университета в Сан-Диего задались вопросом, можно ли использовать обучение с учетом временной разницы, чтобы научиться парить, как птицы, оставаясь на высоте в течение многих часов и не затрачивая много энергии. Восходящий поток теплого воздуха может поднять птицу достаточно высоко, но внутри потока воздух прогрет неравномерно, и можно как подняться вверх, так и упасть. Ориентиры, которые птицы используют для поддержания своей восходящей траектории перед лицом столь мощной стихии, неизвестны. Первым шагом была разработка реалистичной с точки зрения физики модели воздушного потока, неравномерного (турбулентного) из-за конвекции, и модели аэродинамики планера. Затем мы симулировали траекторию полета планера в турбулентном потоке.



Рис. 10.6. Симуляция планера, учащегося парить в восходящем потоке теплого воздуха. Верхний ряд: снимки полей вертикальной скорости (A) и распределения температур (B) в нашем трехмерной цифровой модели конвекции Рэлея – Бенара. Для поля вертикальной скорости светлым и темным цветами обозначены соответственно области большого восходящего и нисходящего потока. Для температурного поля светлый и темный цвета обозначают области высокой и низкой температур. Нижний ряд: (А) типичные траектории необученного и (В) обученного планера, летящего в турбулентном потоке Рэлея – Бенара. Оттенки указывают вертикальную скорость ветра, ощущаемую планером. Светлые и темные точки – начальная и конечная точки траектории. Нетренированный планер принимает случайные решения и спускается, в то время как обученный планер летит по характерным спиральным схемам в областях сильных восходящих течений, как птица парит в восходящих потоках теплого воздуха





Поначалу планер не смог воспользоваться преимуществом, которое давали столбы теплого воздуха, и скользил вниз (рис. 10.6). Получив вознаграждение за подъем, планер начал осваивать стратегию, и после нескольких сотен попыток траектории планера напоминали плотные петли, наблюдаемые у парящих птиц (см. рис. 10.6). Кроме того, были найдены различные стратегии для различных степеней турбулентности. Анализируя эти стратегии, мы можем разработать гипотезы и узнать, используют ли их парящие птицы. Мы также оснастили планер измерительной аппаратурой, чтобы увидеть, насколько хорошо алгоритм обучения выполняет полет в реальных условиях.

Учим петь

Другой пример силы обучения с подкреплением – интересная параллель между тем, как птицы учатся петь, и тем, как дети учатся говорить. В обоих случаях сначала идет период слухового обучения, за которым следует поэтапное моторное обучение. Зебровые амадины слышат песню своего отца в начале жизни, но в течение нескольких месяцев не производят никаких звуков сами. Даже если их изолировать от отца до начала действия моторной фазы обучения, они проходят через период «суб-песни», которая совершенствуется и в конечном итоге превращается в песню отца. Зебровые амадины узнают, из какой части леса их сородич, по его песне, так же, как вы узнаете, откуда прибыл человек, по его акценту. Суть гипотезы, лежащей в основе исследования пения птиц, в том, что во время слухового обучения они изучают шаблон, который затем используют для уточнения звуков, производимых мышечной системой. Механизмы, которые отвечают за фазу моторного обучения, и у людей, и у певчих птиц находятся в базальных ганглиях, где, как мы знаем, происходит обучение с подкреплением.

В 1995 году Кенджи Дойя, постдокторант в моей лаборатории, разработал модель обучения с подкреплением для совершенствования птичьего пения (рис. 10.7). Алгоритм улучшал производительность, настраивая связи между нейронами на модели нижней гортани певчих птиц (сиринкса), а затем тестируя ее, чтобы увидеть, действительно ли новая песня лучше предыдущей. Если это было так, то изменения сохранялись, но если новая песня была хуже, изменения в синапсе откатывались к первоначальному состоянию. Мы предсказали, что в верхней части моторной цепи, которая генерирует последовательность слогов, должны быть нейроны, которые активны только на одном слоге песни, чтобы облегчить настройку каждого слога отдельно. Спустя некоторое время ученые из лаборатории Майкла Фи при МТИ и из других лабораторий, изучающих пение птиц, подтвердили эту и другие ключевые предсказания модели.





Рис. 10.7. Пение зебровых амадин. Пение отца (сверху) обучает петь сына (ученика), и диалект передается из поколения в поколение. Обратите внимание на сходство мотива (обведенная область) в спектрограмме (спектральная мощность как функция времени). Мотив становится короче с каждым поколением





Эллисон Доуп, изучавшая в Калифорнийском университете в Сиэтле пение птиц, и Патриция Куль, изучавшая в Вашингтонском университете в Сиэтле развитие речи у детей, провели много параллелей между тем, как птицы осваивают пение и как малыши осваивают речь. И слоги у птиц и фонемы у младенцев изучаются сначала как звуки, и только позже происходит моторное обучение – «суб-песня» у птенцов и лепет у детей. Алгоритм обучения с подкреплением у певчих птиц отличается от обучения с учетом временной разницы, используемой в системе вознаграждения, и показывает, что в мозге много систем обучения и запоминания, которые зависят от предметной области и для приобретения новых навыков должны работать вместе.

Назад: Мотивация и базальные ганглии
Дальше: Другие формы обучения

ThomasBap
панно }
adjunty
4 azithromycin pills where to buy zithromax over the counter azithromycin capsules 250mg