Разговорный интерфейс – путь к сильному ИИ
Но несмотря на все эти вложения, качество разговорного интерфейса до сих пор оставляет желать лучшего. При этом и распознавание речи у голосовых помощников, и качество их синтетической речи уже вполне удовлетворительны. Их можно и дальше улучшать, в том числе за счет камер, распознающих мимику, жесты и эмоции пользователя. Проблема не в распознавании речи, а в понимании ее смыслового содержания и умении вести осмысленную беседу, то есть в создании того, что можно назвать разговорным интеллектом.
Выясняется, что одного сенсорного интеллекта для общения на естественном языке вовсе недостаточно. Распознавание речи лишь самый поверхностный слой настоящего разговорного интеллекта, перевод звукового сигнала в текст. Конечно, благодаря глубокому обучению в машинной обработке текстов тоже имеются большие успехи. Это видно хотя бы по довольно высокому качеству современного машинного перевода. Однако оказывается, что излагать одно и то же содержание на другом языке и делать умозаключения на основе этого содержания – задачи разного уровня сложности. Первое требует наличия у машины семантического пространства, в котором отражается содержание предложений, тогда как второе предполагает умение оперировать в этом семантическом пространстве, прокладывать в нем осмысленные траектории – рассуждения.
Разговорный интеллект должен обучаться формировать осмысленное поведение в семантическом пространстве, понимая на каждом шаге цели и позиции всех участников диалога, включая свои собственные. Значит, он и сам должен уметь ставить перед собой какие-то цели и добиваться их достижения. Иными словами, машинный перевод еще можно отнести к задачам распознавания образов – отображению исходного текста в его семантическое представление, а последнего – в текст на другом языке. Разговорный же интеллект относится к гораздо более сложному классу задач – обучению адаптивному целесообразному поведению, включая рациональное мышление как разновидность поведения в семантическом пространстве и умение осознанно манипулировать смыслами. А это – прямой путь к настоящему сильному ИИ.
Современное машинное обучение пытается найти решение этой задачи с помощью все тех же глубоких нейросетей. У всех на слуху недавние победы машин во всевозможных стратегических играх, от культовой древней игры го до новомодных StarCraft 2 и Dota 2, где требуется реагировать на действия соперников в реальном времени и строить гипотезы о том, что происходит в ненаблюдаемых областях игрового поля. Эти достижения демонстрируют способность глубоких нейросетей формировать полезные поведенческие навыки и строить выигрышные стратегии в виртуальных мирах. Но современные алгоритмы пока что не позволяют машинному интеллекту вырваться из этих виртуальных миров в реальный. Обучение нейросетей происходит сегодня слишком медленно, и соответствующий «жизненный опыт» за приемлемое время удается набрать лишь в виртуальном мире за счет существенного ускорения темпа игры. Эти алгоритмы невозможно перенести на обучение роботов в реальном мире, где у них не будет столько времени на обучение и стольких виртуальных жизней, которыми заплачено за неудачные решения.
К тому же, если вернуться к разговорному интеллекту, у нас пока нет виртуальных миров для оттачивания разговорных навыков. Ассистентам надо учиться рассуждать и вести диалоги, а для этого – пробовать самим генерировать варианты ответов в различных сценариях. Привычное обучение на больших корпусах готовых диалогов здесь не подходит. Надо, чтобы кто-то оценивал качество каждой реплики в бесчисленных ветвящихся вариантах развития диалогов, из которых лишь очень немногие могут присутствовать в обучающей выборке. А на это пока что способны только живые люди и лишь в реальном времени.
Резюмируя, можно сказать, что существующий уровень машинного интеллекта явно не устраивает лидеров цифровой революции, которые остро нуждаются в разговорном интеллекте человеческого уровня и будут вкладываться в его создание, чтобы не отстать от конкурентов. Рынок разговорного интеллекта удваивается каждые 2 года и в 2020 году должен был превысить $12 млрд. Так что спрос на сильный ИИ в современной экономике уже сформировался, и мы понимаем, кому и для чего он сегодня нужен. Следовательно, этим уже имеет смысл заниматься, хотя еще совсем недавно после всех пережитых разочарований задача построения сильного ИИ всерьез не воспринималась, а разговоры о нем считались ненаучными.