Книга: Искусственный интеллект. Что стоит знать о наступающей эпохе разумных машин
Назад: 3. Все, что вы можете делать
Дальше: Ораторские приемы: ИИ учится спорить

Научиться видеть и слышать

Камеры окружают нас повсюду: в телефонах, домах и почти во всех общественных местах. Наш мир все чаще контролируется программами. ИИ, распознающий образы на фотографиях, позволяет классифицировать сотни миллиардов изображений, которые мы создаем и загружаем, например, в социальные сети. Мы можем не только найти интересные нам картинки, но и отследить огромное количество изображений нелегального или оскорбительного содержания – а это уже невозможно сделать вручную. К тому же распознавание изображений позволяет машинам лучше понять мир людей и быстрее в нем освоиться.



Многое еще предстоит сделать, особенно если говорить о наблюдении за непредсказуемым реальным миром. Но в ряде тестов ИИ уже сейчас способен определить изображения на картинках, включая отдельные лица, причем он делает это куда точнее нас. Тем не менее мощь машин, которые умеют слушать и наблюдать, не в том, что они делают это лучше человеческих глаз или ушей. Их мощь, как и других вычислительных приложений, заключается в скорости, масштабе и относительной дешевизне обработки. Большинство крупных технологических компаний разрабатывают нейронные сети для понимания речи, открывая наборы данных, которые ранее казались трудными или невозможными для поиска.

Как устроен мир

Выделение объектов на изображении – это одно; масштабное понимание происходящего на картинке гораздо сложнее. Один из способов помочь машинам лучше понять мир – это научить их предсказывать будущее. Например, исследователи из Facebook работают над искусственным интеллектом, который при просмотре изображения сможет предсказывать то, что произойдет дальше. Он даже может генерировать несколько видеокадров, которые показали бы возможное развитие событий с определенного момента времени. Но не только Facebook работает над данной техникой.

Обучение ИИ предвидению возможных поворотов событий помогает алгоритму лучше понять настоящее. «Любой робот, который работает в нашем мире, должен обладать базовой способностью к предсказанию будущего, – говорит Карл Вондрик из Массачусетского технологического института. – Если вы начинаете садиться в кресло, то вам явно не захочется, чтобы в этот момент робот вытащил его из-под вас».

Вондрик и коллеги обучали ИИ на двух миллионах видео с сайта по обмену фотографиями Flickr, на которых изображались пляжи, поля для гольфа, вокзалы и дети в больнице. После тренировки ИИ смог предсказать то, что произойдет дальше, в результате анализа одного изображения. При показе изображения железнодорожной станции ИИ создавал видео с поездом, отходящим от платформы, а фотография пляжа вдохновляла его на создание анимации с накатывающими волнами.

Человеческому глазу данные видео могут показаться немного странными, и ИИ еще предстоит многому научиться. Например, он не понимает, что поезд, покидающий станцию, со временем должен также пропасть и из кадра. Это объясняется тем, что алгоритм не обладает предварительными знаниями о правилах мира, то есть тем, что мы бы назвали «здравым смыслом». Два миллиона видеороликов, то есть материал длительностью примерно в два года, – это то количество данных, которое необходимо для понимания устройства мира. Это не так уж много по сравнению с опытом десятилетнего ребенка или тем, что люди увидели за миллионы лет эволюции.

Команда работает над созданием более длинных видео, в которых ИИ может еще дальше спроецировать свое воображение. Возможно, ему не под силу точно предсказать будущее, однако он может показать нам альтернативные варианты. «Я считаю, что у нас получится создать такие системы, которые в конечном счете научатся проецировать адекватные и правдоподобные варианты развития будущего», – говорит Вондрик.



Покорение новых вершин

Одним из видов деятельности, в которых машины все еще терпят неудачи, является взаимодействие с физическим миром. Пока DeepMind готовился к своей знаменательной игре в го, другая команда Google работала над более прозаичной победой. В видео, выпущенном в 2016 году, роботизированные пальцы разгибались и хватали бытовые предметы: ножницы или губки. Они повторяли эту процедуру сотни тысяч раз, обучая себя элементарной зрительно-моторной координации. Роботы совершенствуют технику хватания методом проб и ошибок до тех пор, пока не научатся дотягиваться и поднимать предмет одним плавным движением.

На той же неделе Facebook показал, как один из его ИИ обучался устройству мира, наблюдая за видео падающих башен из деревянных брусьев. Целью исследования было научить алгоритм интуитивному восприятию физических объектов – так, как это делают дети, – а не делать выводы на основе заранее прописанных правил.

Обучение машин взаимодействию с реальным миром на интуитивном уровне ребенка является серьезной проблемой для исследователей ИИ. Освоение сложной игры – весьма захватывающее зрелище, однако ИИ, играющий в детские игрушки, – это как раз то, над чем нам следует понаблюдать. Несмотря на сложность го, все задачи в игре регламентированы четкими правилами. Для реального мира это – непозволительная роскошь. «Честно говоря, мой пятилетний ребенок намного умнее AlphaGo, – рассказывает Орен Эциони, генеральный директор Института искусственного интеллекта Аллена в Сиэтле, штат Вашингтон. – Любой ребенок значительно умнее и гибче; он может справляться с новыми ситуациями и руководствоваться здравым смыслом».

Тем не менее эксперимент с робопальцами доказывает, что методы машинного обучения, используемые для освоения го, способны помочь машинам освоить зрительно-моторную координацию. Люди пытаются сделать ИИ более похожим на нас, улучшая его ловкость через реакцию на успехи и неудачи. В течение двух месяцев команда робопальцев записывала на видео 14 роботов-манипуляторов в процессе поднимания предметов. Эти 800 000+ «попыток захвата предмета» загружались обратно в нейронную сеть.

Благодаря обновленному алгоритму, которым роботы стали руководствоваться при принятии решений, исследователи вновь подвергли свои машины испытаниям. Они заполнили мусорные корзины случайными объектами, включая те, которые было трудно поднять двухпальцевым захватом: стикеры, тяжелые степлеры, мягкие или мелкие предметы.

В итоге роботы могли захватывать какие-то предметы на протяжении 80 % времени. Они разработали то, что команда исследователей окрестила «нетрадиционными и неочевидными стратегиями захвата», научились оценивать размер объектов и правильно с ними обращаться. Например, робот захватывает твердый предмет, обхватывая пальцами каждую его сторону. А с бумажными салфетками и прочими мягкими предметами робот помещал один палец сбоку, а второй ставил посередине.

Команда Facebook применила аналогичный подход. Они обучили алгоритмы на 180 000 компьютерных симуляций цветных блоков, сложенных в случайном порядке, а также, на видеоизображениях реальных башен из деревянных брусков, когда они падали или оставались на месте. В результате лучшие нейронные сети смогли точно предсказать падение имитируемых блоков в 89 % случаев. ИИ не очень хорошо справился с реальными блоками, а лучшая система давала правильный прогноз только в 69 % случаев. Показатели для виртуальных брусков оказались выше человеческих, а прогноз падения реальных брусков был сравним с предположениями испытуемого-человека.

Подобные исследования постепенно отходят от контролируемого обучения – классического подхода при обучении машин, при котором им предлагаются правильные ответы. Вместо этого обучение перекладывается на сам алгоритм. Машина строит догадку, проверяет ее успешность и затем пытается снова. AlphaGo также частично обучался по методу проб и ошибок. Это помогало ему находить выигрышные ходы, сбивающие с толку человеческих игроков.

Еще один навык, который предстоит освоить ИИ, чтобы конкурировать с ребенком, – это отличное выполнение не одной задачи, а целого множества. Как считает Энциони, подобный уровень разумности отделяют от нас десятки лет кропотливой работы. «Человеческая подвижность и способность переключаться с одной задачи на другую до сих пор не реализованы».

Часы заурядного видео

Исследователи из Пенсильванского университета Филадельфии учат нейронную сеть EgoNet смотреть на мир собственными глазами. Для этого они загружают в сеть множество часов заурядных видео, которые снимались с помощью камер GoPro, прикрепленных к головам людей. Добровольцы размечали по кадрам моменты своей повседневной жизни, показывая, на чем именно сосредотачивалось их внимание в каждой сцене. Затем эту запись загружали в компьютер, который многократно спрашивали о происходящем в кадре. Такие данные помогли алгоритму научиться прогнозировать, выбирая предметы, которые человек собирался внимательнее рассмотреть или потрогать. Вы с большей вероятностью возьмете кофейную чашку, если, например, ее ручка повернута в вашу сторону. Точно так же тот, кто хочет воспользоваться компьютером, сначала потянется к клавиатуре.

Команда тестировала EgoNet на кадрах, в которых фигурировали люди в процессе приготовления пищи, играющие дети и бегающая в парке собака. Конечно же, до полноценной конкуренции с человеком алгоритму нужно еще дорасти. Но исследователи надеются, что данная версия системы может оказаться полезной в сфере здравоохранения, позволяя, например, врачам диагностировать необычные шаблоны поведения у детей.

В другом проекте под названием Augur исследователи из Стэнфордского университета в Калифорнии тоже пытались научить компьютеры понимать происходящее в видео, снятом от первого лица. Но вместо того, чтобы обучать Augur на материале с комментариями, ему предоставили совершенно другой набор данных: 1,8 миллиардов слов, взятых из художественных произведений на Wattpad – интернет-сообществе писателей.

Пища для размышлений

Художественная литература – отличный источник для прогнозирования человеческого поведения, поскольку она описывает всю глубину человеческой жизни. Большинство историй имеет повествовательную структуру, благодаря чему соблюдается логическая последовательность событий, которые может освоить компьютер.

Как только Augur идентифицировал объект в кадре, он начинал штудировать прочитанные материалы с целью отгадать, что бы с подобным объектом сделал человек. Например, изображение тарелки указывает на то, что кто-то собирается поесть, приготовить пищу или помыть посуду. Если вы просыпаетесь и смотрите на будильник, то Augur должен догадаться, что вы собираетесь встать с постели.

Один из недостатков такого обучения в том, что художественная литература делает Augur склонным к драматизму. Если зазвонит телефон, то алгоритм подумает, что вы начнете ругаться и собираетесь швырнуть телефон в стену. Настройка системы с использованием более бытовых сценариев научит Augur тому, что не все живут в мире сериалов. Исследователи полагают, что такая система поможет фильтровать звонки, если алгоритм видит, что человек занят, либо напомнит владельцу о лимитах на покупки, когда увидит, что человек присматривается к дорогим товарам.

Исследователи из Facebook тоже тренировали свой ИИ на художественной литературе. Один из их наборов данных включал в себя текст из десятков классических детских произведений, таких как «Книга джунглей», «Питер Пэн», «Маленькие женщины», «Рождественская песнь» и «Алиса в стране чудес».

Чтобы проверить, насколько хорошо ИИ понимал прочитанное, его просили заполнить пробелы в предложениях, описывающих события из историй. Исследователи Facebook утверждают, что способность отвечать на подобные вопросы указывает на то, что ИИ в состоянии принять решения, опираясь на более широкий контекст происходящего. Это является важнейшим навыком в представлении и запоминании сложных фрагментов информации. Схожее мышление привело к появлению другого теста на интеллект. Его также разработали в Facebook, и он включал в себя ответы на основные вопросы об отношениях между объектами из коротких рассказов.



Интервью. Можем ли мы наделить компьютеры здравым смыслом?

В Facebook на подходе сразу несколько проектов по искусственному интеллекту. Ян Лекун, профессор вычислительных наук в Нью-Йоркском университете и директор по ИИ в Facebook, создает искусственные нейронные сети с глубоким пониманием изображений и текста. Что изображено на картинке? О чем говорится в рассказе? Как все это взаимосвязано? Что может произойти дальше? В интервью 2015 года для New Scientist Ян рассказал, на что способна эта технология.

– Какие серьезные проблемы стоят перед вами?

– Самой главной проблемой является неконтролируемое обучение (обучение без учителя), то есть способность машин улавливать практическую суть происходящего в процессе наблюдения за миром. Пока что для этого у нас не хватает нужных алгоритмов.

– Почему исследователям ИИ стоит переживать об осмысленности и неконтролируемом обучении?

– Потому что это тип обучения, которым в основном пользуются люди и животные. Почти все наше обучение – неконтролируемое.

Мы узнаем об устройстве мира, наблюдая и живя в нем. Никто не говорит нам, как все называется. Так как же нам переключить машины на неконтролируемое обучение, используемое у людей и животных?

– В Facebook есть система, которая может отвечать на простые вопросы о происходящем на картинке. Она обучалась на комментариях, сделанных людьми?

– Это сочетание человеческих комментариев и искусственно созданных вопросов и ответов. Изображения уже содержат либо перечень собственных объектов, либо описания самих себя. Из этих перечней или описаний мы можем сгенерировать вопросы и ответы об изображенных на картинке объектах, а затем обучить систему выбирать правильный ответ, когда вы задаете вопросы. По большому счету, именно так и происходит обучение.

– Есть ли какие-то типы вопросов, вызывающие трудности у вашей системы ИИ?

– Да. Если вы спрашиваете о семантике, то система не сможет дать достойный ответ. Она обучена на определенных типах вопросов, например наличие или отсутствие объектов, либо отношения между объектами. Однако есть огромное множество вещей, которые такой ИИ сделать не может. Так что это не идеальная система.

– Можно ли использовать данную систему для автоматической подписи изображений в Facebook или Instagram?

– В создании подписей используется немного другой метод. Но они похожи. Конечно же, это очень полезная опция для слабовидящих пользователей Facebook. Или, скажем, вы едете за рулем автомобиля, кто-то отправляет вам фотографию, а вы не хотите отрываться от дороги и смотреть на экран телефона. Тогда вы можете просто спросить систему: «Что изображено на картинке?»

– Существуют ли проблемы, которые, по вашему мнению, не в состоянии решить глубокое обучение или сверточные нейронные сети, считывающие изображения?

– Есть вещи, которые на сегодняшний день реализовать невозможно. Но кто знает? Например, если бы вы спросили меня лет десять назад: «Нужно ли использовать сверточные сети или глубокое обучение для распознавания лиц?», – я бы сказал, что у нас ничего не получится. А на самом деле все получилось очень даже неплохо.

– Почему вы решили бы, что нейронные сети с этим не справятся?

– В то время нейронные сети действительно хорошо распознавали общие категории. Например, вот здесь изображен автомобиль. Неважно, что это за автомобиль и в каком он находится положении. Или, допустим, стул. Существует огромное множество различных стульев, а нейронные сети хороши лишь в отделении «стула» от «автомобиля», вне зависимости от конкретного экземпляра и его положения.

Но для того, чтобы распознавать виды птиц, пород собак, растения или лица, потребуется четкое разграничение по тысячам и миллионам категорий, и различия между этими категориями весьма незначительны. Я был уверен, что глубокое обучение – не лучшее решение, и стоит поискать более подходящий вариант. Я ошибся. Я недооценил силу своей собственной технологии. Есть множество вещей, которые в данный момент кажутся мне сложными. Но стоит увеличить собственные возможности, как эти вещи становятся вполне решаемыми.

– Facebook провел эксперимент, в котором инженеры дали компьютеру отрывок из «Властелина колец», а затем попросили его ответить на вопросы по рассказу. Является ли этот эксперимент примером нового тестирования разумности машин от Facebook?

– Это продолжение нашей работы с использованием тех же методов, что лежат в основе системы. Группа, работающая над данным экспериментом, придумала серию вопросов, на которые могла бы ответить машина. Вот рассказ. Ответьте на вопросы по нему. Какая-то информация выдавалась в форме простых фактов. Если я скажу: «Ари берет свой телефон», а затем спрошу: «Где находится телефон Ари?», то система должна будет сказать, что телефон находится в руках Ари.

Но как насчет целой истории, в которой люди перемещаются? Я могу спросить: «Находятся ли эти два человека в одном месте?», а вы, если захотите ответить на данный вопрос, должны будете представить себе, как выглядит физический мир. Для ответа на вопросы из серии «Сколько человек находится в комнате?» вы должны запомнить из всех предыдущих предложений, сколько человек зашло в эту комнату. Для такой категории вопросов нужны логические рассуждения.

– Придется ли нам обучать машины осмысленности до того, как они научатся предсказывать будущее?

– Нет, это можно делать одновременно. Если мы обучаем систему прогнозированию, то в процессе формирования предсказания она сможет сделать все необходимые выводы о структуре окружающего мира. Конкретным воплощением этого крутого явления можно назвать Eyescream. Это нейронная сеть, в которую вы загружаете случайные числа, а на выходе она выдает вам реалистичные изображения. Вы можете дать ей команду нарисовать самолет или церковный купол… для всего, на чем обучалась сеть, она способна сгенерировать весьма правдоподобные изображения.

Так что возможность генерирования изображений – это как кусочек головоломки. Ведь для того, чтобы предсказать, что произойдет дальше в видео, нужно иметь модель, способную создавать изображения.

– Что именно может предсказать ваша модель?

– Если вы покажите системе видео и спросите: «Что произойдет на следующем кадре?», то задача окажется не такой уж сложной. Существует несколько возможных сценариев, но уже движущиеся объекты обычно продолжают свое движение в том же направлении. Однако если просить, как изменится видео через секунду, то произойти может многое.

А что если вы смотрите фильм Хичкока, и я такой спрашиваю: «Что будет в фильме через 15 минут?» Вы должны будете догадаться, кто убийца. Решение этой проблемы потребует от вас полной осведомленности о мире и природе человека. Но в этом-то и вся прелесть.

– Как, по вашему мнению, глубокое обучение изменит нашу жизнь через пять лет?

– Одна из исследуемых нами областей – это идея личного цифрового дворецкого. Мы пока не придумали название для проекта, но в Facebook он называется Project M. Цифровой дворецкий – это долгосрочная научно-фантастическая версия виртуального помощника М от Facebook, как в фильме «Она».

Четко и ясно

Машины учатся не только видеть, но и слышать. За последние несколько лет в распознавании голоса наметился значительный прогресс. Теперь мы близки к тому, чтобы считать чем-то обыденным голосовые команды телефону найти информацию в Интернете или поставить напоминание. А такими устройствами, как Amazon Echo и Google Home, и вовсе можно управлять только голосом. Индустрия безопасности активно инвестирует в умные охранные системы, которые, например, могут определить разницу между разбитым окном и упавшим бокалом для вина.

Как так вышло, что распознавание голоса вдруг распространилось повсюду? Это обычная история. Недавний расцвет технологий был обусловлен машинным обучением и огромными объемами доступных обучающих данных. «За последние 3 года область распознавания речи претерпела больше положительных изменений, чем за прошедшие 30 лет вместе взятых», – рассказывает Тим Таттл, генеральный директор Expect Labs, стартапа из Сан-Франциско, который создает умные голосовые интерфейсы.

У нас еще остались непокоренные вершины. Технологию до сих пор могут сбить с толку различные акценты и шумный фон, а также дети, поскольку они обладают более высокими голосами и с большей долей вероятности нарушают очевидные правила грамматики. Но потенциал для создания мощных систем распознавания голоса просто огромен. Люди с ограниченными возможностями смогут легче управлять машинами, а сильно занятые люди или те, у кого заняты руки, смогут вызвать цифрового помощника. Точно так же врачи используют голосовое распознавание для диктовки медицинских записей.

Мечта, над которой сейчас работают многие компании, – это система, которая не только понимает, о чем мы говорим, но и предсказывает наши потребности как личный помощник. Для успешной реализации система она должна научиться понимать сложные запросы, состоящие из двусмысленных или неточных слов, и быть в состоянии четко указать людям на непонятные ей вещи.

К тому же потребуется запоминание предыдущих разговоров. Например, если я ищу билет на самолет в Атланту в сентябре, а затем говорю: «Еще нужен номер в отеле», то система должна сама понять, когда и где нужно будет забронировать номер, а не заставлять меня лишний раз повторять эту информацию.

Появлению машины, способной справиться с неточностью и неясностью повседневной речи, предстоят еще годы полноценной работы. Пока что машины едва ли могут понять, к чему относится местоимение в предложениях из серии «Трофей не поместился бы в коричневом чемодане, потому что он был слишком большим».



Кодовое слово

Подключите систему машинного обучения к телефонным линиям в тюрьмах, и вы узнаете такие секреты, которые ни за что не заметит человеческий монитор. Каждый входящий и исходящий звонок в американских тюрьмах записывается.

То, что говорится по телефону, может иметь большое значение, поскольку некоторые тюремные заключенные используют телефоны для ведения незаконного бизнеса изнутри. Записи звонков хранятся в огромном количестве аудиофайлов, и проверять их человеческими ушами – слишком дорогая роскошь.

С этой целью одна из тюрем на Среднем Западе использовала систему машинного обучения, разработанную лондонской фирмой Intelligent Voice, для прослушивания тысяч часов записей ежемесячно. Программа снова и снова регистрировала в записях слово «тройничок» (three-way) – оно было одним из самых популярных и часто используемых нетривиальных слов или фраз. Сначала тюремные сотрудники были крайне удивлены повсеместной популярностью того, что, по их мнению, имело отношение к сексу.

Но затем они догадались, что это был зашифрованный код. Заключенным разрешено звонить только по нескольким заранее согласованным номерам. Поэтому, если заключенный хотел поговорить с кем-то, кого не было в списке, он звонил друзьям или родителям и просил «тройничка» с человеком, с которым на самом деле хотел побеседовать. Это был код для набора номера стороннего человека. Ни один из специалистов, занимающихся мониторингом телефонных звонков, не обнаружил данной закономерности, пока в записях не «покопалась» программа.

Эта история наглядно демонстрирует скорость и масштаб анализа, которые алгоритмы машинного обучения привносят в наш мир. Изначально компания Intelligent Voice разработала данную программу для британских банков, которые по отраслевым стандартам были обязаны фиксировать все звонки. Здесь, как и в тюрьмах, генерируется огромное количество аудиоданных, которые крайне трудно проверить.

Компания обучала свой ИИ не на процессе записи звуковых сигналов, а на формах колебаний человеческого голоса (модель скачков и падений). Обучение системы на таком визуальном представлении данных позволяло ей пользоваться мощными техниками, разработанными для классификации изображений.

Смотрите, кто заговорил

Наряду с улучшением понимания речи машины начинают охватывать и микрофоны. Последние версии операционной системы iPhone от Apple запоминают, как звучит ваш голос. Так они могут идентифицировать вас при обращении к Siri и не обращать внимания на посторонние голоса.

Siri, умный личный помощник, не единственная, кто знает ваш голос. По мере совершенствования программных средств голосовые системы стали проникать в различные аспекты нашей повседневной жизни – от смартфонов до полицейских участков и кол-центров банков. И это еще не предел. Исследователи из Google представили искусственную нейронную сеть, которая могла подтвердить личность говорящего по фразе «ОК, Google» с частотой ошибок в 2 %.

Ваш голос – это физиологическое явление, определяемое физическими характеристиками и языками, на которых вы говорите. Ваш голос уникален, как и отпечатки пальцев или ДНК, и отличается от голосов других, даже членов семьи. Методы машинного обучения умеют замечать малейшие различия.

Распознавание отдельных голосов отличается от понимания того, о чем они говорят. Программы распознавания оснащены огромными наборами голосовых данных, встроенных в гигантскую модель того, как именно разговаривают люди. Это позволяет измерить, насколько сильно голос человека отличается от голосов других людей, и является ключом к идентификации человека. Однако программа может быть сбита с толку изменениями в голосе человека из-за стресса или болезни.

Эта технология уже используется в уголовных расследованиях. В 2014 году, когда журналист Джеймс Фоли был обезглавлен, по всей видимости, группировкой ИГИЛ (террористическая организация, запрещенная в России. – Прим. ред.), полиция использовала программный алгоритм для сравнения голоса убийцы с голосами из списка возможных подозреваемых. Сообщается, что такие банки, как J. P. Morgan и Wells Fargo, стали пользоваться биометрическими характеристиками голоса для выявления мошенников, звонящих на телефон горячей линии.

Сейчас исследователи пытаются выяснить, как создать портрет незнакомца на основании аудиозаписей. Спектрограмма речи дает представление о росте и весе говорящего, его происхождении и даже об окружающей его среде. В медицинской области анализ голоса поможет определять вероятные заболевания или психологическое состояние человека.

Назад: 3. Все, что вы можете делать
Дальше: Ораторские приемы: ИИ учится спорить