Первым шагом к диалогу между человеком и машиной станет способность машины «слушать» и «говорить». «Слух» обеспечит постоянное стремление к точности. А «речь» превратит мышление в подобное человеческому.
Одна из основных возможностей «Baidu Brain» – технология распознавания речи или «слух». Она прошла долгий путь от стандартного сопоставления шаблонов до создания статистической модели и глубокой нейронной сети. Распознавание речи раньше проходило через акустическую модель к модели фонемы, а затем к многоступенчатой трансформации языковой модели. В последние годы с помощью глубокого обучения этот шаг был упрощен. Теперь машина генерирует свою собственную программу от входа информации до выхода, что значительно улучшило точность восприятия. Теперь «Baidu Brain» слышит четче.
Работа по усовершенствованию технологии распознавания речи Baidu началась в 2011 году. К 2016 году точность этой технологии достигла 97 %.
За четыре года с 2012 по 2016 год точность технологии увеличилась почти на 30 %. Baidu верно распознает 85 предложений из 100 даже на пунунхуа с явно выраженным диалектом. Обычно Baidu понимает около 98 предложений, в то время как человек – только 60. Для того, чтобы обучить систему воспринимать диалекты, требуется не менее 720 часов. Процесс обучения постоянно меняется, чтобы повысить чувствительность системы.
Очень трудно научить «Baidu Brain» «говорить». Baidu использует акустические и языковые модели. Акустическая модель определяет произношение языка. Когда вводится слово, система находит соответствующее произношение в звуковом банке. Для того, чтобы «говорение» не имело машинного характера, необходимо создать библиотеку голосового материала. Например, если увеличить время обучения с 20 часов до 100, звук, издаваемый машиной, будет звучать намного органичнее. Чтобы сделать синтезированную «ломаную» речь непрерывной, «Baidu Brain» будет совершенствовать навык в текстовой библиотеке. Например, если вы скажете слово «Китай», система сможет выбрать для воспроизведения в последующих фразах схожие слова, такие как «Народная Республика», «национальный» и т. д.
Длительная речь – это технология, которая делает машинные речи более наполненными. Эмоции, схемы построения длинных выражений и т. д. смогут приблизить синтетическую речь к человеческой.
Механизм распознавания речи может найти широкое применение. Например, мы можем использовать его для создания «суперпродавца»: когда новенький продавец звонит клиенту, мозг Baidu записывает вопрос клиента в реальном времени и отображает его на экране компьютера. Система мгновенно ищет и получает ответы на вопросы от лучших специалистов. Таким образом, каждый «новичок» может перенять коммуникационную способность лучшего продавца прошлого в первый день своей работы. В 2014 году Baidu предоставил интеллектуальные голосовые решения для Tesla Motors. Китайские владельцы автомобилей теперь могут использовать голос для управления системой автомобиля, навигацией, могут инициировать поиск и даже совершать звонки через Bluetooth.
Распознавание речи включает также некоторые речевые функции. Например, после того, как Ху Ге прочел поэму «Sapphire Case · Yuan Xi», система распознавания речи может автоматически сгенерировать читку. Голоса некоторых звезд система сможет воспроизвести после анализа только лишь 2000 предложений.
В настоящее время Baidu совершает 250 миллионов голосовых ответов в день. После того, как была запущена технология синтеза эмоциональной речи, продолжительность ежедневного слушания аудио-романов увеличилась с 0,69 часа до 2,21. В будущем эта функция поможет не только в «чтении книг». Пожилые люди смогут всегда услышать голоса своих детей, когда те заняты на работе.
Система машинного перевода Baidu на основе технологии нейронных сетей быстро изучает языки. После 6 лет обучения сегодня Baidu может перевести 28 популярных языков по 756 направлениям. Baidu распознает и диалекты, такие как кантонский и шанхайский.
Бог лишил человечество единства языка, и люди потеряли способность беспрепятственного общения. Машинный перевод наконец даст нам возможность объединиться и построить настоящую Вавилонскую башню.
«Видение» занимает 80 % работы по сбору информации. Компьютер должен не только уметь говорить и слушать. Мы также хотим научить его «видеть», то есть распознавать изображения. Возьмем цветок в качестве примера. После того как пользователь загружает изображение цветка в Baidu, система преобразует его в цифровой поток «0101». Затем вводит в глубокую нейронную сеть посредством поэтапного анализа слоев на пиксельном уровне. Информация о каждом слое сравнивается с существующими массивами данных, чтобы восстановить целостное изображение и распознать, что это цветок. Метод аналогичен функции человеческого глаза.
Все это основывается на предварительной классификации изображений. В ImageNet, самой большой в мире базе данных распознавания образов, представлено более 1000 категорий классификаций изображений. Классификация базы данных изображений Baidu достигла 40 000 категорий.
Baidu продвигает программу компьютерного зрения в четырех областях. В продуктах, похожих на карту Baidu, реализована комбинация отображения карт и технологии интеллектуального распознавания изображений, а данные бесконечно аппроксимируются. Технология Baidu «без водителя» использует компьютерное зрение для оптимизации программы, что ускоряет разработку беспилотных автомобилей. Кроме того, распознавание изображений будет применяться к AR (дополненной реальности) для улучшения визуальных эффектов.
Распознавание лица системой Baidu намного превосходит человеческое восприятие. В базе данных содержится более 200 миллионов фотографий лиц, а число обучающих просмотров превышает 2 миллиона. В настоящее время «Baidu Brain» может автоматически определять количество лиц на картинке, положение и размер каждого лица и поддерживать множественные углы спереди и сбоку. Даже если цель находится в движении, скорость скрининга не уменьшается. Основываясь на более чем 70 ключевых точках, таких как глаза, брови, кончик носа, рот и щеки, система анализирует лица на уровне пикселей и определяет пол, возраст и положение людей.
Как и команда AlphaGo, команда Baidu интересуется, где находятся ее технологические пределы. Есть ли отклонения в системе R&D искусственного интеллекта? Чтобы получить ответ на этот вопрос, компания приняла участие в широкомасштабном научном реалити-шоу Jiangsu Satellite TV «The Strongest Brain» и соревновалась с «Water Brother» Ван Хао, который может отличить 520 оттенков воды невооруженным глазом. В предыдущей программе «Water Brother» победил искусственный интеллект «Ai Ke» от Ant Financial. Команда Baidu оптимизировала алгоритм работы компьютера для соревнования и доказала, что машина может быть умнее человека. Baidu – сильнейшая технология искусственного интеллекта в Китае.
Среди продуктов, в основу которых легла технология распознавания лиц, наиболее полезной станет система контроля доступа Wuzhen’s. Специалисты смогут вводить информацию о лице в систему, а потом использовать ее в любом месте, где установлена система контроля доступа.
Эта технология в Baidu обычно упоминается как «1 к 1». Она сравнивает информацию между лицом и базой данных и ищет соответствия «от 1 до N». Эта технология часто встречается в западных шпионских фильмах: система ищет личную информацию о человеке, чтобы установить его личность. В отечественных фильмах трудно увидеть подобные «умные навыки». Но сравнение Baidu «от 1 до N» действительно достигает около 99 % точности распознавания.
Этот метод легче описать, чем внедрить в жизнь. Когда технология наконец дозреет и базы данных будут прочно связаны друг с другом, у нас отпадет нужда показывать удостоверение личности для проверки безопасности для путешествия на самолете или поезде. На входе в здание вокзала или аэропорта камеры будут фиксировать изображение лиц и передавать их системе. Она подтвердит нашу личность и информацию о билете. Эффективность поездок и общественный порядок станут на порядок лучше. Обычные люди получат зеленый коридор.
Система распознавания лиц Baidu требует света только одной свечи на расстоянии квадратного метра для того, чтобы завершить процесс идентификации и оценки. Технология биометрического распознавания достигает скорости ответа 20 кадров в секунду, а процесс взаимодействия занимает менее 2 секунд. Сочетание видеозаписи и технологии распознавания лиц Baidu дает возможность точно идентифицировать пользователя и использовать это знание для противодействия мошенничеству в финансовой сфере для утверждения кредита, идентификации банковской карты, удаленной карты и т. д.
Технология «зрения» Baidu может пойти на пользу массивам данных. Если мы сфотографируем Дворцовую Площадь Дурбар под разными углами, Baidu удалит дублирующиеся и бесполезные изображения и с помощью моделирования создаст трехмерную структуру Храма Маджу Девал. Люди на расстоянии тысячи километров смогут оценить величие Дворцовой Площади и Храма с помощью виртуального интернет-тура. С большим количеством загруженных фотографий Baidu сможет восстанавливать множество достопримечательностей. Так люди смогут путешествовать в 3D-турах, не выходя из дома.
В конце 2016 года в шанхайском аэропорту Хунцяо два пассажирских самолета были в трех секундах друг от друга и практически столкнулись на земле. Функции диспетчеризации и предупреждения не сыграли роли в этом инциденте. К счастью, пилоты, не дожидаясь команды диспетчера, избежали аварии самостоятельно.
Этот инцидент еще раз напоминает нам, что возникновение крупных аварий неизбежно в моделях управления, которые полагаются на человека.
Лин Юаньцин узнал интересную деталь в отделе гражданской авиации: чтобы оценить условия дорожного покрытия, сотрудники аэропорта проверяют взлетно-посадочную полосу каждые 4 часа. Эта низкооплачиваемая и трудоемкая работа не требует профессиональных навыков. Ее можно полностью заменить искусственным интеллектом: камера видеонаблюдения с ИИ сможет осуществлять 3D-реконструкцию среды взлетно-посадочной полосы в реальном времени. Движения самолетов, багажных тележек, транспортных средств для обслуживания аэропортов и всего персонала смогут отражаться в режиме реального времени. Кроме того, детали и посторонние предметы, случайно выпавшие на полосу, можно будет найти оперативно и без каких-либо упущений. Точность, предсказуемость и безопасность таких систем намного выше, чем проверка вручную.