Книга: Атлас искусственного интеллекта: руководство для будущего
Назад: Глава 4. Классификация
Дальше: Глава 6. Государство

Глава 5

Эмоции

В отдаленную заставу в горных районах Папуа-Новой Гвинеи прибыл молодой американский психолог Пол Экман с коллекцией флэш-карточек и новой теорией. Шел 1967 год, и Экман слышал, что коренные жители Окапы (Форе) настолько изолированы от внешнего мира, что станут для него идеальными испытуемыми. Как и многие западные исследователи до него, Экман приехал в Папуа-Новую Гвинею, чтобы получить от коренного населения данные. Он собирал доказательства в поддержку спорной гипотезы: все люди проявляют небольшое количество универсальных эмоций или аффектов, которые являются естественными, врожденными, межкультурными и одинаковыми во всем мире. Хотя это утверждение остается сомнительным, оно имело далеко идущие последствия: предпосылки Экмана об эмоциях превратились в развивающуюся индустрию стоимостью более семнадцати миллиардов долларов. Это история о том, как распознавание аффектов стало частью искусственного интеллекта, и о проблемах, которые при этом возникают.

В тропиках Окапы под руководством медицинского исследователя Д. Карлетона Гайдусека и антрополога Э. Ричарда Соренсона Экман надеялся провести эксперименты, которые позволили бы оценить, как Форе распознают эмоции, передаваемые мимикой. Поскольку у Форе был минимальный контакт с западными людьми или средствами массовой информации, Экман предполагал, что их распознавание и демонстрация основных выражений докажет, что они являются универсальными. Его методы были просты. Он показывал им карточки с изображениями выражений лица и проверял, описывают ли они эмоции так же, как он. По словам самого Экмана, «все, что я делал, это показывал забавные картинки».

Однако у Экмана напрочь отсутствовала подготовка в области истории, языка, культуры или политики Форе. Его попытки провести эксперименты с флэш-карточками с помощью переводчиков провалились; он и его испытуемые устали от этого процесса, который он описывал как вырывание зубов. Экман покинул Папуа-Новую Гвинею, разочарованный своей первой попыткой кросс-культурного исследования эмоционального выражения. Но это было только начало.

В наши дни инструменты распознавания эмоций можно найти в системах национальной безопасности и в аэропортах, в сфере образования и в стартапах, от систем, которые якобы выявляют психические заболевания, до полицейских программ, претендующих на прогнозирование насилия. Рассмотрев историю появления компьютерного распознавания эмоций, мы можем понять, как его методы вызывали этические проблемы и научные сомнения. Как мы увидим, утверждение о том, что внутреннее состояние человека можно точно оценить, проанализировав его лицо, основано на шатких доказательствах. На самом деле, всеобъемлющий обзор доступной научной литературы по определению эмоций, опубликованный в 2019 году, дал окончательное заключение: нет достоверных доказательств того, что можно точно предсказать эмоциональное состояние человека по его лицу.

Как это собрание спорных утверждений и экспериментальных методик превратилось в подход, определяющий многие аспекты индустрии искусственного интеллекта? Почему идея о том, что существует небольшой набор универсальных эмоций, легко интерпретируемых по лицу, стала настолько общепринятой в области ИИ, несмотря на значительные доказательства обратного? Чтобы понять это, необходимо проследить, как развивались эти идеи, задолго до того, как инструменты для определения эмоций с помощью ИИ были встроены в инфраструктуру повседневной жизни.

Экман – лишь один из многих людей, кто внес свой вклад в теорию распознавания эмоций. Но богатая и удивительная история исследований Экмана освещает некоторые из сложных сил, движущих этой областью. Его работа связана с финансированием американской разведкой гуманитарных наук во время холодной войны, с основополагающей работой в области компьютерного зрения, с программами безопасности после 11 сентября, используемыми для выявления террористов, и вплоть до нынешней моды на распознавание эмоций на основе ИИ. Это хроника, в которой сочетаются идеология, экономическая политика, политика, основанная на страхе, и желании получить больше информации о людях, чем они готовы дать.

Когда за чувства платят

Для мировых военных, корпораций, разведывательных служб и полиции идея автоматического распознавания эмоций столь же привлекательна, сколь и прибыльна. Она обещает надежно отделить друга от врага, отличить ложь от правды и использовать инструменты науки для проникновения во внутренние миры.

Технологические компании собрали огромные объемы изображений лиц, включая миллиарды селфи в Instagram, портретов в Pinterest, видео в TikTok и фотографий на Flickr. Одна из многих вещей, ставших возможными благодаря такому обилию изображений, – это попытка извлечь так называемую скрытую правду о внутренних эмоциональных состояниях с помощью машинного обучения. Распознавание эмоций встраивается в несколько платформ распознавания лиц, от крупнейших технологических компаний до небольших стартапов. В то время как распознавание лиц пытается идентифицировать конкретного человека, распознавание аффектов направлено на обнаружение и классификацию эмоций путем анализа любого лица. Возможно, эти системы не делают того, на что они претендуют, но, тем не менее, они могут стать мощными инструментами влияния на поведение и обучение людей узнаваемым действиям. Эти системы уже играют определенную роль в формировании поведения людей и функционирования социальных институтов, несмотря на отсутствие серьезных научных доказательств того, что они работают.

В настоящее время автоматизированные системы распознавания эмоций широко применяются, особенно при приеме на работу. Лондонский стартап под названием Human использует систему распознавания эмоций для анализа видеоинтервью с кандидатами на работу. Согласно сообщению в Financial Times, «компания утверждает, что она может распознавать эмоциональные проявления потенциальных кандидатов и сопоставлять их с чертами характера»; затем компания оценивает кандидатов по таким чертам характера, как честность или любовь к работе. Компания HireVue, занимающаяся набором персонала с помощью искусственного интеллекта, среди клиентов которой числятся Goldman Sachs, Intel и Unilever, использует машинное обучение для оценки признаков лица, чтобы сделать вывод о пригодности человека к работе. В 2014 году компания запустила свою систему ИИ для извлечения микровыражений, тона голоса и других параметров из видеозаписей собеседований, используемых для сравнения соискателей с лучшими сотрудниками компании.

В январе 2016 года компания Apple приобрела стартап Emotient, который утверждал, что создал программное обеспечение, способное распознавать эмоции по изображениям лиц. Emotient вырос из академических исследований, проведенных в Калифорнийском университете Сан-Диего, и является одним из нескольких стартапов, работающих в этой области. Возможно, самым крупным из них является Affectiva, компания, базирующаяся в Бостоне, которая возникла в результате академической работы, проведенной в Массачусетском технологическом институте. В Массачусетском технологическом институте Розалинд Пикард и ее коллеги стали частью более широкой формирующейся области, известной как аффективные вычисления, которая описывает вычисления, «связанные с эмоциями или другими аффективными явлениями, возникающими из них или сознательно на них влияющими».

Affectiva кодирует различные приложения, связанные с эмоциями, в основном используя методы глубокого обучения. Они варьируются от обнаружения отвлекающихся водителей на дорогах до измерения эмоциональной реакции потребителей на рекламу. Компания создала, по их словам, крупнейшую в мире базу данных эмоций, включающую более десяти миллионов выражений лиц людей из восьмидесяти семи стран Их монументальная коллекция видеороликов с эмоциями создана вручную краудворкерами, базирующимися в основном в Каире. Многие другие компании уже лицензировали продукты Affectiva для разработки различных приложений – от оценки кандидатов на работу до анализа того, вовлечены ли студенты в занятия, и все это с помощью захвата и анализа их мимики и языка тела.

За пределами сектора стартапов такие гиганты ИИ, как Amazon, Microsoft и IBM, разработали системы для определения эмоций. Microsoft предлагает распознавание аффектов в своем Face API, который утверждает, что может определить, что чувствует человек, по таким эмоциям, как «гнев, презрение, отвращение, страх, счастье, нейтральность, грусть и удивление», и утверждает, что «эти эмоции понимаются как межкультурные и универсальные, передаваемые с помощью определенных выражений». Инструмент Rekognition от Amazon также утверждает, что способен определить «все семь эмоций» и «измерить, как они меняются со временем, например, построив временную шкалу эмоций актера».

Но как эти технологии работают? Системы распознавания эмоций выросли на стыке технологий ИИ, военных приоритетов и поведенческих наук – в частности, психологии. Они имеют схожий набор схем и исходных предпосылок: существует небольшое количество отдельных и универсальных эмоциональных категорий, мы непроизвольно показываем эти эмоции на лице, и они могут быть обнаружены машинами. Эти постулаты настолько приняты в некоторых областях, что может показаться странным даже замечать их, не говоря уже о том, чтобы подвергать их сомнению. Они настолько укоренились, что стали «общепринятой точкой зрения». Но если мы посмотрим на то, как эти эмоции были упорядочены и обозначены, то обнаружим несчетное количество вопросов. И ведущей фигурой, стоящей за этим подходом, является Пол Экман.

«Самый знаменитый в мире человек, читающий по лицам»

Исследования Экмана начались с удачной встречи с Сильваном Томкинсом, тогда уже признанным психологом из Принстона, который в 1962 году опубликовал первый том своего magnum opus об аффектах «Affect Imagery Consciousness». Работа Томкинса оказала огромное влияние на Экмана, который посвятил большую часть своей карьеры изучению их последствий. Один аспект, в частности, сыграл огромную роль: идея о том, что если аффект – это врожденный набор эволюционных реакций, то они должны быть универсальными и поэтому узнаваемыми в разных культурах. Это стремление к универсальности имеет важное значение для того, почему эти теории сегодня широко применяются в системах распознавания эмоций ИИ: они предлагают небольшой набор принципов, которые можно применять повсеместно, упрощение сложности, которое легко воспроизводимо.

Во введении к книге «Аффект, образ, сознание» Томкинс сформулировал свою теорию биологически обоснованных универсальных эмоций как теорию, направленную на решение острого кризиса человеческого суверенитета. Он бросил вызов развитию бихевиоризма и психоанализа, двух школ мысли, которые, по его мнению, рассматривали сознание как всего лишь побочный продукт других сил и служение им. Он отметил, что человеческое сознание «снова и снова подвергалось сомнению и приуменьшению, сначала Коперником», который переместил человека из центра вселенной, «затем Дарвином», чья теория эволюции разрушила идею о том, что люди созданы по образу и подобию христианского Бога, «и больше всего Фрейдом», который «обесценил человеческое сознание и разум как движущую силу наших мотивов». Томкинс продолжает: «Парадокс максимального контроля над природой и минимального контроля над человеческой природой отчасти является производной пренебрежения ролью сознания как механизма контроля». Проще говоря, сознание мало что говорит нам о том, почему мы чувствуем и действуем определенным образом. Это утверждение имеет решающее значение для всех видов последующих применений теории аффектов, которые подчеркивают неспособность людей осознавать как чувство, так и выражение эмоций. Если мы, люди, неспособны по-настоящему определить, что мы чувствуем, то, возможно, системы искусственного интеллекта смогут сделать это за нас?

Теория Томкинса позволила ему решить проблему человеческой мотивации. Он утверждал, что мотивация регулируется двумя системами: эмоциями и стимулами. Стимулы, в свою очередь, тесно связаны с непосредственными биологическими потребностями, такими как голод и жажда. Они инструментальны; муки, вызванные голодом, устраняются с помощью еды. Однако основной системой, управляющей мотивацией и поведением человека, являются эмоции, включающие в себя позитивные и негативные чувства. Эмоции, играющие самую важную роль в мотивации человека, усиливают сигналы стимулов, но также стоит понимать, что они гораздо сложнее. Например, трудно определить точную причину или причины, которые заставляют ребенка плакать и выражать стресс. Он может «проголодаться, замерзнуть, намочить пеленки, испытывать боль, или [плакать] из-за высокой температуры». Точно так же существует ряд способов управления аффективным чувством: «Плач можно остановить кормлением или объятиями, обогревом или охлаждением комнаты, удалением занозы из пальца, и так далее».

Томкинс заключает: «Цена, которую приходится платить за эту гибкость, – двусмысленность и ошибки. Индивид может правильно определить „причину“ своего страха или радости, а может и не определить. А может не научиться уменьшать свой страх, поддерживать или восстанавливать радость. В этом отношении система эмоций не является такой же простой сигнальной системой, как система стимулов». Аффекты, в отличие от драйвов, не являются строго инструментальными; они имеют высокую степень независимости от стимулов и объектов, что означает, что мы часто можем не знать, почему мы чувствуем гнев, страх или радость.

Вся эта двусмысленность наводит на мысль, что сложности аффектов невозможно разрешить. Как мы можем что-то знать о системе, в которой связи между причиной и следствием, стимулом и реакцией столь непрочны и неопределенны? Томкинс предложил свой ответ: «Первичные аффекты … похоже, врожденно связаны с заметной системой органов». А именно – с лицом. Он нашел прецеденты такого акцента на выражении лица в двух работах, опубликованных в девятнадцатом веке: Чарльз Дарвин «О выражении эмоций у человека и животных» (1872) и малоизвестный том французского невролога Гийома-Бенжамена-Аманда Дюшена де Булонь «Электрофизиологический анализ выражения страстей пластического искусства» (1862).

Томкинс полагал, что проявление эмоций на лице является универсальным человеческим свойством. «Эмоции, – считал Томкинс, – это наборы мышечных, сосудистых и железистых реакций, расположенных на лице и по всему телу и генерирующих сенсорную обратную связь. Эти организованные наборы реакций запускаются в подкорковых центрах, где хранятся специфические „программы“ для каждого отдельного аффекта» – очень раннее использование вычислительной метафоры для человеческой системы.

Однако Томкинс признал, что интерпретация аффективных проявлений зависит от индивидуальных, социальных и культурных факторов, и что в разных обществах существуют совершенно разные «диалекты» языка лица. Даже прародитель исследований аффекта допускал возможность того, что распознавание эмоций зависит от социального и культурного контекста. Потенциальный конфликт между культурными диалектами и биологически обоснованным, универсальным языком имел огромные последствия для изучения выражения лица и более поздних форм распознавания эмоций. Учитывая, что выражения лиц культурно изменчивы, использование их для обучения систем машинного обучения неизбежно привело бы к смешению всевозможных контекстов, сигналов и ожиданий.

В середине 1960-х годов возможность постучалась в дверь Экмана в виде Агентства перспективных исследовательских проектов (ARPA), исследовательского подразделения Министерства обороны. Оглядываясь на этот период, он признается: «Это была не моя идея – заниматься этим [исследованием влияния]. Меня попросили, подтолкнули. Я даже не писал исследовательское предложение. Его написал за меня человек, который дал мне на это деньги». В 1965 году он изучал невербальную экспрессию в клинических условиях и искал финансирование для развития исследовательской программы в Стэнфордском университете. Он организовал встречу в Вашингтоне, округ Колумбия, с Ли Хоуфом, руководителем отдела поведенческих наук ARPA. Хоуфа не заинтересовали описания Экмана, но он увидел потенциал в понимании межкультурной невербальной коммуникации.

Единственная проблема заключалась в том, что, по собственному признанию Экмана, он не знал, как проводить межкультурные исследования: «Я даже не знал, что такое аргументы, литература или методы». Поэтому Экман по понятным причинам решил отказаться от финансирования ARPA. Но Хоуф настоял на своем, и, по словам Экмана, он «просидел один день в моем кабинете и написал предложение, которое затем профинансировал. В результате я провел исследование, которым я наиболее известен – доказательства универсальности некоторых выражений эмоций на лице и культурных различий в жестах». Он получил огромное вливание средств от ARPA, примерно один миллион долларов – эквивалент более восьми миллионов долларов на сегодняшний день.

В то время Экман задавался вопросом, почему Хоуф так охотно финансировал это исследование, даже несмотря на его возражения и отсутствие опыта. Оказалось, что Хоуф хотел побыстрее распределить деньги, чтобы избежать подозрений со стороны сенатора Фрэнка Черча. Он уличил его в использовании исследований в области социальных наук в качестве прикрытия для получения информации в Чили, которая могла быть использована для свержения левого правительства при президенте Сальвадоре Альенде. Позднее Экман пришел к выводу, что он был просто счастливчиком, человеком, «который мог проводить зарубежные исследования, не доставляя ему [Хоуфу] неприятностей!» ARPA станет первым в длинном ряду агентств из оборонной промышленности, разведки и правоохранительных органов, которые будут финансировать как карьеру Экмана, так и область распознавания эмоций в целом.

Получив крупный грант, Экман начал свои первые исследования, чтобы доказать универсальность выражения лица. В целом, эти исследования проводились по схеме, которая была скопирована в первых лабораториях ИИ. Он во многом повторил методы Томкинса, даже использовал фотографии Томкинса для тестирования испытуемых из Чили, Аргентины, Бразилии, США и Японии. Экман полагался на предложение участникам исследования имитировать выражение эмоций, которые затем сравнивались с фотографиями полученными вне лабораторных условий. Испытуемым представлялись снимки с наиболее яркими эмоциями, а затем просили выбрать одну из категорий и обозначить. В ходе анализа измерялась точность, с которой выбранные испытуемыми обозначения коррелировали с обозначениями, выбранными исследователями.

С самого начала у методологии возникли проблемы. Формат ответов Экмана с принудительным выбором был позже раскритикован за то, что он предупреждал испытуемых о связях, которые исследователи уже установили между мимикой и эмоциями. Кроме того, тот факт, что эти эмоции были симулированы, вызвал серьезные сомнения в достоверности результатов. Экман обнаружил некоторые межкультурные соответствия, но его выводы были оспорены антропологом Рэем Бирдвистеллом, который предположил, что эти соответствия не отражают истинных эмоций, если они были усвоены через воздействие таких средств массовой информации, как фильмы, телевидение или журналы. Именно этот спор заставил Экмана отправиться в Папуа-Новую Гвинею, специально для изучения коренных жителей высокогорного региона. Он решил, что если люди, мало знакомые с западной культурой и СМИ, согласятся с тем, как он классифицировал аффективные проявления, то это послужит убедительным доказательством универсальности его схемы.

После того как Экман вернулся после своей первой попытки изучения народа Форе в Папуа-Новой Гвинее, он разработал альтернативный подход для доказательства своей теории. Он показывал своим американским испытуемым фотографию, а затем попросил их выбрать одну из шести эмоций: счастье, страх, отвращение и презрение, гнев, удивление и печаль. Результаты оказались достаточно близки к результатам испытуемых из других стран, чтобы Экман посчитал возможным полагать, что «определенные формы поведения лица универсально ассоциируются с определенными эмоциями».

От физиогномики до фотографии

Идея о том, что о внутреннем состоянии человека можно достоверно судить по внешним признакам, частично вытекает из истории физиогномики, которая была основана на изучении черт лица человека для выявления признаков его характера. В древнегреческом мире Аристотель считал, что «о характере человека можно судить по его внешности… ибо предполагалось, что тело и душа поражаются вместе». «Греки также использовали физиогномику как раннюю форму расовой классификации, применяя ее к „самому роду человеческому“, разделяя его на расы, в той мере, в какой они различаются по внешности и характеру (например, египтяне, фракийцы и скифы)». Они предполагали связь между телом и душой, что позволяло судить о внутреннем характере человека по его внешнему облику.

Физиогномика в западной культуре достигла своего апогея в восемнадцатом и девятнадцатом веках, когда она рассматривалась как часть анатомических наук. Ключевой фигурой в этой традиции стал швейцарский пастор Иоганн Каспар Лаватер, который написал книгу «Эссе о физиогномике», первоначально опубликованную на немецком языке в 1789 году. Лаватер взял подходы физиогномики и соединил их с новейшими научными знаниями. Он пытался создать более «объективное» сравнение лиц, используя силуэты вместо гравюр художников, поскольку они носили более механический характер и фиксировали положение каждого лица в привычной профильной форме, позволяя иметь сравнительную точку зрения. Лаватер считал, что структура костей является основополагающей связью между внешностью и типом характера. Если выражения лица мимолетны, то черепа давали более прочный материал для физиогномических выводов. Измерение черепов, как мы видели в последней главе, использовалось для поддержки зарождающегося национализма, расизма и ксенофобии. Эта работа продолжила свое развитие в XIX веке такими френологами, как Франц Джозеф Галль и Иоганн Гаспар Шпорцгейм, а также в научной криминологии благодаря работе Чезаре Ломброзо. Все это привело к тем типам классификаций, которые повторяются в современных системах искусственного интеллекта.

Но именно французский невролог Дюшен, которого Экман назвал «удивительно одаренным наблюдателем», кодифицировал использование фотографии и других технических средств для изучения человеческих лиц. В книге «Механизм физиогномики человека» Дюшен заложил важные основы для Дарвина и Экмана, соединив старые идеи физиогномики и френологии с более современными исследованиями в области физиологии и психологии. Он заменил расплывчатые утверждения о характере более ограниченным исследованием выражения лица и внутренних ментальных или эмоциональных состояний.

Дюшен работал в Париже в приюте Сальпетриер, где содержалось до пяти тысяч человек с самыми разными диагнозами психических заболеваний и неврологических состояний. Некоторые из них стали объектами его мучительных экспериментов – часть давней традиции медицинских и технологических экспериментов над самыми уязвимыми и теми, кто не может отказаться. Дюшен, который был мало известен в научном сообществе, решил разработать технику электрического шока для стимулирования изолированных мышечных движений. Его целью стало создание более полного анатомического и физиологического представления о лице. Дюшен прибегнул к этим методам, чтобы соединить новую психологическую науку с гораздо более древним изучением физиогномических признаков, или страстей. Он использовал новейшие фотографические технологии, которые позволяли использовать гораздо более короткое время экспозиции и заморозить на снимках мимолетные мышечные движения и выражения лиц.

Даже на этих ранних стадиях лица никогда не являлись естественными или социально обусловленными человеческими экспрессиями, а представляли собой имитации, созданные путем грубого воздействия электричества на мышцы. Тем не менее, Дюшен верил, что использование фотографии и других технических систем позволит превратить неуклюжий процесс репрезентации в нечто объективное и доказательное, более подходящее для научного исследования. В своем предисловии к книге «О выражении эмоций у человека и животных» Дарвин высоко оценил «великолепные фотографии» Дюшена и включил их репродукции в свою собственную работу. Поскольку эмоции оказались временными, даже мимолетными, фотография давала возможность фиксировать, сравнивать и классифицировать их видимое выражение на лице. Тем не менее, образы истины Дюшена были в высшей степени искусственными.



Фотографии из книги Ж. Б. Дюшена (де Булонь) «Механизм человеческой физиогномики, или Электрофизиологический анализ выражения страстей». Предоставлено Национальной медицинской библиотекой США





Вслед за Дюшеном Экман поставил фотографию в центр своей экспериментальной практики. Он считал, что замедленная съемка необходима для его подхода, поскольку многие выражения лица работают на пределе человеческого восприятия. Его целью был поиск так называемых микровыражений – крошечных мышечных движений на лице. Продолжительность микровыражений, по его мнению, «настолько мала, что они находятся на пороге распознавания, если не использовать замедленную съемку». В более поздние годы Экман настаивал, что любой человек без специальной подготовки может научиться распознавать микровыражения примерно за один час. Но если эти выражения слишком быстры для распознавания человеком, как их понять?

Одним из масштабных планов Экмана в его ранних исследованиях являлась кодификация системы обнаружения и анализа выражений лица. В 1971 году он опубликовал описание того, что он назвал техникой оценки лицевых действий (FAST). Опираясь на фотографии, этот подход использовал шесть основных эмоциональных типов, в значительной степени основанных на интуиции Экмана. Но вскоре FAST столкнулся с проблемами, когда другие ученые смогли создать выражения лица, не включенные в его типологию. Поэтому Экман решил основать следующий инструмент измерения на лицевой мускулатуре, возвращаясь к первоначальным исследованиям электрошока Дюшенна. Экман определил примерно сорок различных мышечных сокращений на лице и назвал основные компоненты каждого выражения лица единицей действия. После некоторого тестирования и проверки Экман и Уоллес Фризен опубликовали в 1978 году систему кодирования действий лица (FACS); обновленные издания до сих пор продолжают широко использоваться. FACS оказалась очень трудоемкой системой. По словам Экмана, на обучение пользователей методологии FACS ушло от семидесяти пяти до ста часов, а на оценку одной минуты видеозаписи лица – один час.

На одной из конференций в начале 1980-х годов Экман услышал доклад, в ходе которого предлагалось решение проблемы трудоемкости FACS: использование компьютеров для автоматизации измерений. Хотя в своих воспоминаниях Экман не упоминает исследователя, представившего доклад, он сообщает, что система называлась Wizard и была разработана в Университете Брунеля в Лондоне. Вероятно, речь идет о ранней системе машинного обучения Игоря Александера для распознавания объектов, wISArd, которая использовала нейронные сети в то время, когда этот подход не пользовался популярностью. Некоторые источники сообщают, что wISArd была обучена на «базе данных известных футбольных хулиганов», предвосхищая широко распространенное в настоящее время использование фотороботов преступников для обучения технологий распознавания лиц.





Элементы системы кодирования действий лица. Источник: Пол Экман и Уоллес В. Фризен





Поскольку распознавание лиц стало основополагающим приложением для искусственного интеллекта в 1960-х годах, неудивительно, что первые исследователи, работавшие в этой области, нашли общий язык с подходом Экмана. Сам Экман утверждает, что сыграл активную роль в развитии автоматизированных форм распознавания аффектов благодаря своим старым связям в оборонных и разведывательных ведомствах еще со времен финансирования ARPA. Он помог организовать неформальное соревнование между двумя командами, работающими с данными FACS, и это, по-видимому, оказало долгосрочное влияние. Обе команды впоследствии заняли видное место в области аффективных вычислений. Одна из них состояла из Терри Сейновски и его ученицы Мариан Бартлетт, которая сама стала важной фигурой в компьютерной науке распознавания эмоций и ведущим ученым в компании Emotient, приобретенной Apple в 2016 году. Вторая, базирующаяся в Питтсбурге, возглавлялась психологом Джеффри Коном из Питтсбургского университета и выдающимся исследователем компьютерного зрения Такео Канаде из Карнеги-Меллон. Эти два человека занимались распознаванием аффектов в течение длительного времени и разработали хорошо известный набор данных эмоциональных выражений Кона и Канаде (CK) и его потомков.

Система FACS Экмана обеспечила два элемента, необходимых для последующих приложений машинного обучения: стабильный, дискретный, конечный набор меток, которые люди могут использовать для категоризации фотографий лиц, и систему для производства измерений. Она обещала вывести сложную работу по изображению внутреннего мира из компетенции художников и романистов и сделать ее рациональной, познаваемой и измеряемой системой, подходящей для лабораторий, корпораций и правительств.

Запечатление чувств: артистизм исполнения эмоций

Когда работа по использованию компьютеров для распознавания эмоций начала приобретать какую-то форму, исследователи осознали необходимость в коллекции стандартизированных изображений для экспериментов. В отчете NSF 1992 года, соавтором которого выступил Экман, рекомендовалось: «Легкодоступная мультимедийная база данных, разделяемая разнообразным сообществом исследователей, станет важным ресурсом для решения и расширения проблем, связанных с пониманием лиц». Уже через год Министерство обороны начало финансировать программу feret для сбора фотографий, как мы видели в главе 3. К концу десятилетия исследователи машинного обучения начали собирать, маркировать и обнародовать наборы данных, на которых основывается большая часть современных исследований в области машинного обучения.

Руководящие принципы FACS Экмана непосредственно повлияли на набор данных CK. Следуя традиции Экмана о позировании мимики, «испытуемые получали инструкции от экспериментатора выполнить серию из 23 мимических движений», которые затем эксперты FACS кодировали, предоставляя метки для данных. Набор данных CK позволил лабораториям сравнить свои результаты и сопоставить прогресс при создании новых систем распознавания выражений.

Другие лаборатории и компании работали над параллельными проектами, создавая десятки баз данных фотографий. Например, исследователи из лаборатории в Швеции создали Karolinska Directed Emotional Faces. Эта база данных состоит из фотографий людей, изображающих эмоциональные выражения, соответствующие категориям Экмана. Они придают своим лицам форму, соответствующую шести основным эмоциональным состояниям. Глядя на эти наборы, трудно не поразиться: Невероятное удивление! Обильная радость! Парализующий страх! Эти испытуемые буквально создают эмоции, читаемые машиной.

По мере роста масштабов и сложности этой сферы росли и типы фотографий, используемых для распознавания аффектов. Исследователи начали использовать систему FACS для маркировки данных, полученных не из постановочных выражений, а скорее из спонтанных, иногда собранных вне лабораторных условий. Например, через десять лет после чрезвычайно успешного выпуска набора данных CK группа исследователей выпустила второе поколение – расширенный набор данных Кон-Канаде (CK+). CK+ включал обычный набор постановочных кадров, но также начал включать так называемые спонтанные выражения, полученные из видео.





Выражения лица из набора данных Кон-Канаде: радость, гнев, отвращение, печаль, удивление, страх. Позиционные изображения из T. Kanade et al., Yearbook of Physical Anthropology (2000). © Кон и Канаде





В 2009 году компания Affectiva вышла из медиалаборатории Массачусетского технологического института с целью фиксирования «естественных и спонтанных выражений лица» в реальных условиях. Компания собирала данные, позволяя пользователям подключиться к системе, которая записывала их лица с помощью веб-камеры во время просмотра серии рекламных роликов. Затем эти изображения вручную маркировались с помощью специального программного обеспечения кодерами, обученными FACS Экмана. Но здесь мы сталкиваемся с еще одной проблемой. FACS была разработана на основе значительного архива постановочных фотографий Экмана. Даже когда кадры собираются в естественных условиях, они обычно классифицируются в соответствии со схемой, полученной из постановочных изображений.

Работа Экмана оказала глубокое и широкое влияние на все – от программного обеспечения для детекции лжи до компьютерного зрения. New York Times назвала Экмана «самым известным в мире специалистом по чтению лиц», а Time включил его в список ста самых влиятельных людей в мире. В конечном итоге он консультировал таких разных клиентов, как Далай-лама, ФБР, ЦРУ, Секретная служба и даже анимационная студия Pixar, которая хотела создать более реалистичные изображения мультяшных лиц. Его идеи стали частью популярной культуры, вошли в такие бестселлеры, как «Мигание» Малкольма Гладуэлла, и телевизионную драму «Обмани меня», где Экман выступал консультантом по роли главного героя, очевидно, в значительной степени основанной на нем.

Его бизнес процветал: Экман продавал методы обнаружения обмана органам безопасности, таким как Управление транспортной безопасности, которое использовало их при разработке программы «Скрининг пассажиров с помощью методов наблюдения» (SPOT). SPOT использовалась для наблюдения за выражением лица авиапассажиров в годы после терактов 11 сентября, пытаясь «автоматически» обнаружить террористов. Система использует набор из девяноста четырех критериев, все из которых предположительно являются признаками стресса, страха или обмана. Но поиск этих реакций означает, что некоторые группы сразу же оказываются в невыгодном положении. Любой, кто испытывал стресс, чувствовал себя некомфортно на допросе или имел негативный опыт общения с полицией и пограничниками, мог получить более высокий балл. Это создавало свои собственные формы расового профилирования. Программа SPOT подверглась критике со стороны Управления правительственной отчетности и групп защиты гражданских свобод за отсутствие научной методологии и, несмотря на цену в девятьсот миллионов долларов, не принесла явных успехов.

Многочисленная критика теорий Экмана

По мере роста славы Экмана росло и скептическое отношение к его работе, причем критика появлялась из разных областей. Одним из первых критиков была культурный антрополог Маргарет Мид, которая спорила с Экманом по вопросу универсальности эмоций в конце 1960-х годов, что привело к ожесточенной перепалке не только между Мид и Экманом, но и между другими антропологами, критиковавшими идею Экмана об абсолютной универсальности. Мид не убедила вера Экмана в универсальные, биологические детерминанты поведения, не учитывающие культурные факторы. В частности, Экман был склонен сводить эмоции к чрезмерно упрощенной, взаимоисключающей бинарности: либо эмоции универсальны, либо нет. Критики, такие как Мид, указывали на возможность более тонких позиций. Мид заняла среднюю позицию, подчеркивая, что нет никакого внутреннего противоречия между «возможностью того, что человеческие существа могут иметь общее ядро врожденных форм поведения … и идеей о том, что эмоциональные проявления могут в то же время быть сильно обусловлены культурными факторами».

В течение десятилетий к этому хору присоединялось все больше ученых из разных областей. В последние годы психологи Джеймс Рассел и Хосе-Мигель Фернандес-Долс показали, что самые основные аспекты этой науки остаются нерешенными: «Самые фундаментальные вопросы, такие как, например, выражает ли „мимика“ эмоции, остаются предметом больших споров». Социологи Мария Гендрон и Лиза Фельдман Барретт указали на конкретную опасность использования теорий Экмана в индустрии искусственного интеллекта, поскольку автоматическое определение мимики лица не является надежным индикатором внутреннего психического состояния. Как отмечает Барретт, «компании могут говорить все, что угодно, но данные очевидны. Они могут распознать хмурое выражение лица, но это не то же самое, что распознать гнев».

Еще более тревожным является тот факт, что в области изучения эмоций среди исследователей нет единого мнения о том, что такое эмоция. Что такое эмоции, как они формулируются в нас и выражаются, каковы могут быть их физиологические или нейробиологические функции, их связь со стимулами, даже как их определить – все это в целом остается неразрешенным.

Возможно, самым главным критиком теории эмоций Экмана считается историк науки Рут Лейс. В книге «Восхождение эмоций» она тщательно разбирает «последствия фундаментального физиогномического предположения, лежащего в основе работы Экмана… а именно, идею о том, что можно строго проводить различие между подлинными и искусственными выражениями эмоций на основе различий между нашими лицами, когда мы наедине с собой, и лицами, когда мы с другими». Рут Лейс видит фундаментальную цикличность в методе Экмана. Предполагалось, что позированные или смоделированные фотографии, которые он использовал, выражают набор основных эмоциональных состояний, которые «уже свободны от культурного влияния». Затем эти фотографии использовались для маркировки различных групп населения, чтобы продемонстрировать универсальность выражений лиц. Лейс указывает на серьезную проблему: Экман предположил, что «выражения лиц на фотографиях, которые он использовал в своих экспериментах, не имели культурного оттенка, потому что являлись общепризнанными. В то же время, он предположил, что эти выражения лиц были общепризнанными, потому что они были свободны от культурных оттенков». Подход в основе своей носит рекурсивный характер.

Другие проблемы проявились по мере реализации идей Экмана в технических системах. Как мы видели, многие базы данных, лежащие в основе этой области, основаны на актерах, имитирующих эмоциональные состояния перед камерой. Это означает, что системы ИИ обучены распознавать поддельные выражения чувств. Хотя системы ИИ утверждают, что имеют доступ к базовой истине о естественных внутренних состояниях, они обучаются на материале, который неизбежно сконструирован. Даже в случае с изображениями людей, реагирующих на рекламу или фильмы, эти люди знают, что за ними наблюдают, что может изменить их реакцию.

Сложность автоматизации связи между движениями лица и основными эмоциональными категориями приводит к более глубокому вопросу о том, можно ли вообще адекватно сгруппировать эмоции в небольшое количество независимых категорий. Эта точка зрения восходит к Томкинсу, который утверждал, что «каждый вид эмоций может быть идентифицирован по уникальной реакции тела». Однако существует очень мало последовательных доказательств. Психологи провели многочисленные обзоры опубликованных данных, которые не выявили ассоциаций между измеряемыми реакциями и эмоциональными состояниями, которые, как они предполагают, существуют. Наконец, нельзя исключать убеждение, что выражение мало что рассказывает об искреннем внутреннем состоянии, что может подтвердить каждый, кто улыбался, не чувствуя себя по-настоящему счастливым.

Ни один из этих серьезных вопросов об основаниях для утверждений Экмана не помешал его работе занять привилегированное положение в современных приложениях ИИ. Сотни статей цитируют мнение Экмана об интерпретируемых выражениях лица, как будто это неоспоримый факт, несмотря на десятилетия научных споров. Мало кто из ученых-компьютерщиков даже признает эту литературу неопределенности.

Исследователь аффективных вычислений Арвид Каппас, например, прямо называет отсутствие базового научного консенсуса: «Мы слишком мало знаем о сложных социальных модуляторах лицевой и, возможно, другой экспрессивной активности в таких ситуациях, чтобы надежно измерять эмоциональное состояние по поведению. Это не инженерная проблема, которую можно решить с помощью лучшего алгоритма». В отличие от многих специалистов в этой области, которые уверенно поддерживают распознавание аффектов, Каппас ставит под сомнение веру в то, что компьютерам вообще стоит пытаться распознавать эмоции.

Чем больше времени исследователи других специальностей тратят на изучение работы Экмана, тем сильнее становятся доказательства против нее. В 2019 году Лиза Фельдман Барретт возглавила исследовательскую группу, которая провела широкомасштабный обзор литературы на тему определения эмоций по выражению лица. Они пришли к твердому выводу, что выражения далеко не бесспорны и «не являются отпечатками пальцев или диагностическими дисплеями», надежно сигнализирующими об эмоциональных состояниях, тем более в разных культурах и контекстах. Основываясь на всех имеющихся данных, группа отметила: «Невозможно уверенно определить счастье по улыбке, гнев и печаль по хмурому лицу, как это пытается сделать большая часть современных технологий, применяя то, что ошибочно считается научными фактами».

Команда Барретта критически отнеслась к компаниям ИИ, утверждающим, что они способны автоматизировать определение эмоций: «Технологические компании тратят миллионы долларов на исследования, чтобы создать устройства для считывания эмоций с лиц, ошибочно принимая общепринятое мнение за факт, имеющий сильную научную поддержку. На самом деле, наш обзор научных данных показывает, что очень мало известно о том, как и почему определенные движения лица выражают эмоции, особенно на уровне детализации, достаточном для использования таких выводов в важных, реальных приложениях».

Почему, несмотря на такое количество критики, подход к «чтению эмоций» по лицу сохранился? Анализируя историю этих идей, мы можем понять, каким образом финансирование военных исследований, приоритеты полиции и мотивы прибыли формировали данную область. С 1960-х годов, благодаря значительному финансированию Министерства обороны, были разработаны многочисленные системы, которые все более точно измеряли движения лиц. Как только появилась теория о том, что можно оценивать внутренние состояния путем анализа мимики, и была разработана соответствующая технология, люди охотно приняли основную предпосылку. Теория соответствовала тому, что могли сделать инструменты. Теории Экмана казались идеальными для зарождающейся области компьютерного зрения, поскольку их можно было автоматизировать в масштабе.

В достоверность теорий и методологий Экмана вложены мощные институциональные и корпоративные инвестиции. Признание того, что эмоции нелегко классифицировать или что их нельзя точно определить по выражению лица, может подорвать развивающуюся отрасль. В области ИИ Экмана обычно цитируют, как будто вопрос решен. Более сложные вопросы контекста, обусловленности, реляционности и культурных факторов трудно совместить с текущими дисциплинарными подходами информатики или амбициями коммерческого технологического сектора. Поэтому базовые эмоциональные категории Экмана стали стандартными. Более тонкие подходы, такие как «срединный путь» Мида, были в основном проигнорированы. Основное внимание уделялось повышению точности систем искусственного интеллекта, а не решению более важных вопросов о многочисленных способах, которыми мы испытываем, показываем и скрываем эмоции, а также о том, как мы интерпретируем выражения лиц других людей.

Как пишет Барретт, «многие из наиболее влиятельных моделей в нашей науке предполагают, что эмоции – это биологические категории, навязанные природой; они распознаются, а не конструируются человеческим разумом». Системы ИИ для распознавания эмоций основаны на этой идее. Распознавание может пройти неправильно, поскольку оно предполагает, что эмоциональные категории – это данность, а не результат и взаимосвязь.





Columbia Gaze Dataset. Из статьи Брайана А. Смита и др. «Фиксация взгляда: Пассивное обнаружение зрительного контакта для взаимодействия человека и объекта», ACM Symposium on User Interface Software and Technology (UIST), октябрь 2013, 271–80. Предоставлено Брайаном А. Смитом

Политика лиц

Вместо того чтобы пытаться создать больше систем, которые группируют выражения в машиночитаемые категории, мы должны поставить под вопрос происхождение самих эмоций, а также их социальные и политические последствия. Инструменты распознавания уже используются в политических атаках. Например, один консервативный блог утверждал, что создал «виртуальную полиграфную систему» для оценки видеозаписей конгрессмена Ильхан Абдуллахи Омар. Используя аналитику лица и речи от Amazon’s Rekognition, XRVision Sentinel AI и IBM Watson, блогер утверждал, что аналитический балл лжи Омар превышает ее «базовый уровень правдивости» и что она показывает высокий уровень стресса, презрения и нервозности. Несколько консервативных СМИ распространили эту историю, утверждая, что Омар – «патологический лжец» и угроза безопасности страны.

Известно, что эти системы отмечают речевые влияния женщин иначе, чем мужчин, особенно чернокожих женщин. Как мы видели в главе 3, построение «среднего» на основе нерепрезентативных учебных данных – эпистемологически подозрительно с самого начала, с явными расовыми предубеждениями. Исследование, проведенное в университете Мэриленда, показало, что некоторые программы распознавания лиц интерпретируют темнокожие лица как обладающие более негативными эмоциями, чем светлокожие лица, особенно регистрируя их как более злобные и подозрительные, даже когда они контролируют свою улыбку.

В этом и кроется опасность автоматизации распознавания эмоций. Эти инструменты могут вернуть нас в френологическое прошлое, когда ложные утверждения использовались для поддержания существующих систем власти. Десятилетия научных споров об определении эмоционального состояния по лицу человека подчеркивают главное: общее для всех «выявление» не является правильным подходом. Эмоции сложны, и они развиваются и меняются в связи с нашими культурами и историей – во всех многообразных контекстах, которые находятся за пределами искусственного интеллекта. Во многих случаях системы распознавания эмоций не делают того, что заявляют. Вместо того чтобы непосредственно измерять внутренние психические состояния людей, они просто статистически оптимизируют корреляции определенных физических характеристик между изображениями. Научные основы автоматизированного определения эмоций находятся под вопросом, однако новое поколение инструментов для определения эмоций уже делает выводы во все более широком спектре важных контекстов – от работы в полиции до приема на работу.

Даже несмотря на то, что сегодня доказательства указывают на ненадежность определения эмоций, компании продолжают искать новые источники, борясь за ведущую долю рынка в секторе, сулящем миллиардные прибыли. Систематический обзор исследований, проведенных Барретт в области определения эмоций по лицам людей, завершается на проклятой ноте: «Технологические компании, скорее всего, задают неверный в корне вопрос. Попытки „считывать“ внутренние состояния людей на основе анализа мимики, без учета различных аспектов контекста, в лучшем случае неполны, а в худшем – полностью лишены обоснованности, независимо от того, насколько сложны вычислительные алгоритмы».

Пока мы не начнем сопротивляться желанию автоматизировать распознавание эмоций, мы так и будем рисковать неверной оценкой работодателей, потому что их микровыражения не совпадают с выражениями лиц сотрудников. Студенты будут получать оценки хуже, чем их сверстники, потому что их лица показывают отсутствие энтузиазма, а покупателей станут задерживать, потому как система ИИ определила их как вероятных воров. Именно эти люди будут нести расходы на системы, которые не только технически несовершенны, но и основаны на сомнительных методологиях.

Сферы жизни, где применяются такие системы, расширяются так же быстро, как и новые рынки, создаваемые лабораториями и корпорациями. Однако все они опираются на узкое понимание эмоций – выросшее из первоначального набора эмоций Экмана: гнев, счастье, удивление, отвращение, печаль и страх – для обозначения бесконечной вселенной человеческих чувств и проявлений в пространстве и времени. Это возвращает нас к глубокой ограниченности возможности охватить всю сложность мира в рамках одной классификационной схемы. Это возвращает нас к той же проблеме, которую мы уже неоднократно наблюдали: желание чрезмерно упростить то, что сложно, и представить на рынке. Системы искусственного интеллекта стремятся извлечь изменчивый, частный, разнообразный опыт нашего телесного «я», но в результате получается карикатурный набросок, который не может передать нюансы эмоционального опыта в мире.





Назад: Глава 4. Классификация
Дальше: Глава 6. Государство