Выражение лица – окно в вашу душу - Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет - Терренс Сейновски - RutLib.com

Выражение лица – окно в вашу душу

Представьте, что вы смотрите на экран своего сотового, видите, как падают ваши акции, и тут компьютер спрашивает, почему вы расстроены? Выражение вашего лица – окно в эмоциональное состояние вашего мозга, и теперь глубокое обучение может в него заглянуть. Познание и эмоции традиционно считали отдельными функциями мозга, полагая, что познание – корковая функция, а эмоции – подкорковые. И действительно, есть подкорковые структуры, такие как миндалевидное тело, которые регулируют эмоциональное состояние и участвуют, когда уровень эмоций высок, но эти структуры тесно взаимодействуют с корой головного мозга. Например, если миндалевидное тело вовлечено в общение между людьми, событие лучше запоминается. Познание и эмоции взаимосвязаны.

В 1990-х годах я сотрудничал с Полом Экманом (рис. 12.5), психологом из Калифорнийского университета в Сан-Франциско и ведущим мировым экспертом в области мимики. Пол Экман стал прототипом доктора Кэла Лайтмана в сериале «Обмани меня», хотя в общении он намного приятнее Лайтмана. Экман отправился в Папуа – Новую Гвинею, чтобы выяснить, показывают ли доиндустриальные культуры эмоции теми же выражениями лица, что и мы. Во всех видах человеческого общества он нашел шесть универсальных проявлений эмоций: счастья, печали, гнева, удивления, страха и отвращения.

Рис. 12.5. Пол Экман с племенем Форе в Папуа – Новой Гвинее в 1967 году. Он нашел доказательства шести универсальных выражений эмоций: счастья, печали, гнева, удивления, страха и отвращения. Пол был научным консультантом создателей сериала «Обмани меня», и образ доктора Кэла Лайтмана в некоторой степени списан с него

В 1992 году мы с Экманом организовали семинар «Понимание выражения лица» («Facial Expression Understanding»), спонсируемый Национальным научным фондом при правительстве США. В то время было довольно трудно получить поддержку исследований мимики. Наш семинар собрал специалистов в области нейробиологии, электротехники и компьютерного зрения, а также психологии, что открыло новую главу в анализе лиц. Для меня стало неожиданностью, что, хотя анализ мимики потенциально так важен для многих сфер науки, медицины и экономики, его никто не хочет финансировать.

Рис. 12.6. Марни Стюарт-Бартлетт демонстрирует анализ мимики. Временные отрезки – результат работы сетей глубокого обучения, которые распознают на лицах выражения счастья, печали, удивления, страха, гнева и отвращения

Экман разработал систему кодирования лицевых движений (Facial Action Coding System; FACS; СКЛиД), чтобы отслеживать состояние каждой из 44 мышц лица. Эксперты СКЛиД, обученные Экманом, тратят час на покадровую обработку минуты видео. Выражения изменчивы, они могут сохранятся многие секунды, но Экман обнаружил, что некоторые остаются всего на несколько кадров. Эти микровыражения – эмоциональные «утечки» подавленных состояний мозга и часто говорят о бессознательных эмоциональных реакциях и даже выявляют их. Например, микровыражения отвращения во время консультации по вопросам брака были надежным признаком того, что брак не сложится.

В 1990-х годах мы использовали видеозаписи с обученными актерами, которые, как и Экман, могли контролировать каждую мышцу на лице, чтобы обучать нейронные сети с обратным распространением ошибки для автоматизации СКЛиД. В 1999 году сеть, созданная моей аспиранткой Марни Стюарт-Бартлетт (рис. 12.6), имела точность 96 процентов в лаборатории при идеальном освещении, лице, смотрящем строго в камеру, и вручную размеченном времени на видео. Точность была достаточно высокой, чтобы нас с Марни пригласили на телешоу «Доброе утро, Америка» с Дайан Сойер. Марни, работая преподавателем в Институте нейронных вычислений в Калифорнийском университете в Сан-Диего, продолжала разрабатывать систему Computer Expression Recognition Toolbox (CERT), и по мере того как компьютеры становились быстрее, CERT подошла к анализу в реальном времени, чтобы маркировать изменяющиеся выражения лица в потоковом видео.

Марни и Хавьер основали компанию Emotient, чтобы вывести автоматический анализ мимики на рынок. Мы с Полом Экманом входили в ее научно-консультативный совет. Emotient создала сети глубокого обучения с точностью 96 процентов, которые работали в режиме реального времени при разном освещении, определяя выражение лиц людей, ведущих себя естественно и не смотрящих прямо в камеру. На одной из демонстраций за несколько минут они обнаружили, что Дональд Трамп оказывал наибольшее эмоциональное влияние на фокус-группу на первых республиканских дебатах. Социологам потребовалось несколько дней, чтобы прийти к такому же выводу, а экспертам – месяцы, чтобы признать, что ключевой стала эмоциональная вовлеченность. Наиболее выраженными эмоциями на лицах в фокус-группе были радость и страх. Нейросети также предсказали, какой сериал станет хитом, за несколько месяцев до публикации рейтинга Нильсена. Emotient была куплена компанией Apple в январе 2016 года, и Марни и Хавьер теперь работают на Apple Inc.

Возможно, в скором будущем ваш iPhone будет спрашивать вас, почему вы расстроены, и стараться помочь успокоиться.

Наука об обучении

Двенадцать лет назад во время конференции NIPS в Ванкувере я завтракал с Гэри Коттреллом, коллегой с кафедры компьютерных и технических наук Калифорнийского университета в Сан-Диего. Гэри входил в изначальную группу параллельной распределенной обработки с 1980-х годов, и он один из немногих оставшихся в университете – отголосок поколения 1960-х годов, с седой бородой и собранными в хвост волосами. Гэри Коттрелл наткнулся на объявление Национального научного фонда о приеме заявок по программе «Центры науки об обучении» (Science of Learning Centers; SLC). Его внимание привлек бюджет в пять миллионов долларов в год при контракте на пять лет, который может быть продлен еще на пять. Гэри хотел подать заявку и спросил, могу ли я помочь. Он сказал, что, если все получится, ему никогда не придется просить об еще одном гранте. Я сказал, что могу помочь, но в случае успеха этот грант положит конец его карьере. Он усмехнулся, и мы начали обсуждать детали.

Рис. 12.7. Новая наука об обучении включает в себя машинное обучение и нейробиологию, а также углубленные знания в области психологии и образования. [Meltzoff, A.N. Kuhl, P.K. Movellan, J. Sejnowski, T. J. Foundations for a New Science of Learning, Science, 325: 284–288, 2009]

В конечном счете наша заявка была одобрена, и, как я и предполагал, ежегодные 300-страничные отчеты были просто зубодробительными. В наш Центр временно́й динамики обучения (Temporal Dynamics of Learning Center; TDLC) входило более сотни исследователей из 18 организаций со всего мира. Из шести научно-образовательных центров, финансируемых ННФ, наш был наиболее ориентированным на нейробиологию и проектирование, и мы включили последние достижения в области машинного обучения в наши проекты (рис. 12.7). TDLC спонсировала проекты Rubi и CERT. У нас также была мобильная лаборатория ЭЭГ, где испытуемые могли свободно перемещаться в виртуальной среде, записывая свои мозговые волны. В большинстве лабораторий при записи ЭЭГ требуется не двигаться и не моргать, чтобы избежать помех. Мы использовали независимый компонентный анализ, чтобы убрать помехи, вызванные движением. Это позволило нам наблюдать за активностью мозга, в то время как участники эксперимента активно изучали окружающую среду и взаимодействовали с другими людьми.

Вот лишь немногие из проектов TDLC:

• Один из важнейших этапов развития мозга – созревание всех звеньев слуховой системы, которые помогают мозгу различать звуки, особенно звуки речи, что позволят ребенку понимать произнесенные слова. Эйприл Бенасич из Центра молекулярной и поведенческой нейробиологии в Ратгерском университете разработала тест, который может предсказать, будут ли у ребенка трудности с освоением языка и обучением, на основе времени слухового восприятия. Для детей из группы риска она выявила, что поведенческое вмешательство – тренировки со звуками разной длительности и тональности и вознаграждением за обратную связь – в состоянии исправить этот дефицит, и ребенок сможет развить нормальный слух и обучаться. В экспериментах участвовали дети от трех месяцев до пяти лет. Интерактивная среда полезна и для нормально развивающихся детей. В 2006 году Эйприл Бенасич основала компанию AAB Research LLC с целью вывести на рынок технологию быстрой обработки слуховой информации (rapid auditory processing technology; RAPT), чтобы улучшить способность детей к обучению.

• Учителям нужна обратная связь, чтобы понять, трудно ли ребенку усваивать урок. Если ученик выглядит сбитым с толку, то, скорее всего, он что-то не понимает. Марни Стюарт-Бартлетт и Хавьер Мовеллан использовали машинное обучение для регистрации выражений на лицах учеников, чтобы предупреждать учителя, что кто-то выглядит растерянным. Сегодня это можно сделать автоматически и безошибочно, одновременно применяя глубокое обучение для каждого ребенка в классе. Есть много других приложений для анализа мимики в маркетинге, психиатрии и судебной медицине, которые еще не используются.

• Уже более века нам известно, что метод интервального повторения эффективнее для долгосрочного запоминания, чем зубрежка, но почти все исследования длились недолго, всего несколько месяцев, и в основном с участием студентов колледжей. Хэл Пашлер из Калифорнийского университета в Сан-Диего и Майк Мозер из Колорадского университета в Боулдере провели многолетнее исследование на школьниках всех возрастов, чтобы выяснить, работает ли этот метод в других временных масштабах и для учеников младших классов. Они показали, что оптимальный интервал для повторения тем больше, чем дольше период, на который вы хотите сохранить в голове информацию. Составленное ими расписание для студентов языковых курсов показало отличные результаты.

• Учителя часто используют наиболее подходящий способ обучения для конкретного ученика – визуальный, аудиальный (озвучивание) или тактильный. Крупная индустрия обеспечивает учителей тестами и рекомендациями, основанными на этих методах. Но нет никаких научных доказательств, что применение предпочтительного для ученика стиля дает преимущества. Это вдохновило Бет Роговски, постдокторанта из TDLC, и Паулу Таллал из Ратгерского университета провести исследование, показавшее, что нет статистически заметной разницы между использованием вербальных или письменных материалов в обучении и нет связи между предпочитаемым и используемым методом обучения ни сразу, ни в дальней перспективе. А значит, нет никакого смысла подбирать более удобный для ученика стиль преподавания и индустрия, которая продвигает материалы для определения такого стиля, не приносит особой пользы.

• Национальный научный фонд заинтересован в результатах и долговременном развитии. Паула Таллал сыграла важную роль в учреждении в 2014 году фондом X-Prize премии Global Learning XPRIZE в размере 15 миллионов долларов за новаторские решения в образовании. Цель проекта – разработка масштабируемого программного обеспечения с открытым исходным кодом, которое позволит детям в развивающихся странах овладеть базовыми навыками чтения, письма и арифметики за 18 месяцев. Технологические решения и проекты, основанные на исследованиях, проведенных в области образования для X-Prize, в ближайшие десятилетия повлияют на все страны мира.

• В 2014 году в Шанхае на международной встрече, посвященной образованию, научный директор TDLC Андреа Чиба представила исследование, как обучение меняет структуру мозга. Один из делегатов, с удивлением узнав, что мозг пластичен, спросил, может ли образование изменить потенциал ребенка: «Значит ли это, что стоит обучать каждого ребенка?» Другие делегаты также были поражены, увидев старую проблему в новом свете. Очень многие считают, что дети приходят в мир с определенными способностями и что образование тратится впустую на тех, кто менее талантлив или слишком стар, чтобы учиться. В мире есть огромный человеческий потенциал, который не используется.

Мы обнаружили, что большие проблемы в образовании носят не научный, а социальный и культурный характер. В США 13 500 школьных округов, каждый с собственным школьным советом, который определяет учебную программу, квалификацию учителей и применение передового опыта. Потребуются десятилетия, чтобы охватить их все и рассмотреть каждую уникальную ситуацию. Прежде чем преподаватели приступают непосредственно к обучению, они должны организовать работу в классе, что может быть особенно сложно в начальных классах и школах в неблагополучных районах. Родители, выдвигающие определенные требования, не всегда в состоянии оценить высокий уровень выгорания у учителей из-за нехватки ресурсов и влияния профсоюзов.

Преподавание – трудная работа, как ни посмотри. Лучший и наиболее эффективный способ обучения – взаимодействие между опытным взрослым учителем и ребенком один на один. На нас давит настоящий конвейер, созданный для массового образования, в котором дети разделены по возрасту и обучаются в больших классах, а учителя из года в год проводят одни и те же уроки. Конвейер хорош, чтобы построить автомобиль, и, возможно, его было достаточно в то время, когда работникам хватало только базового образования. Но сегодня, когда хорошие рабочие места требуют более высокого уровня подготовки, эта система не подходит, и важным становится обучение на протяжении всей жизни для обновления профессиональных навыков. Учиться всю жизнь биологически возможно, но возвращение в школу для взрослых может быть неприятно и неудобно. Информационная революция, которую мы переживаем, обогнала временные рамки поколения. Появляются новые технологии, которые могут изменить способ, которым мы получаем знания. Интернет так меняет среду обучения, как мы не могли и ожидать, когда наш Центр науки обучения открылся в 2006 году.