В тесте Тьюринга есть одна проблема – исследователи не могут договориться, что считать успешным прохождением теста. В своих работах 1950-х годов Тьюринг высказывал предположение о том, что к XXI веку компьютеры смогут проходить тест в 30 % случаев. Кто-то видит в этой цифре процент экспертов, которых сможет ввести в заблуждение машина, что привело к появлению в 2014 году заголовков газет, утверждающих, что чат-бот Лондонского королевского общества смог пройти тест. Другие же считают успешным прохождением теста правильное выполнение его на 50 %.
Тем не менее даже если чат-боту удастся обмануть всех экспертов, это ничего не скажет о разумности системы по той причине, что оценка теста зависит от уровня технических знаний экспертов и выбора вопросов. Все это влияет на оценку.
В результате большинство исследователей ИИ уже давно отказались от теста Тьюринга в пользу более надежных способов проверки машин. За последние несколько лет алгоритмы научились соответствовать и даже превосходить человеческие показатели в задачах, выходящих за рамки повседневного общения.
– Я трачу время на то, чтобы научить компьютеры понимать виртуальный мир, а не проходить тест Тьюринга. Мне кажется, это более быстрый путь к разумности, – говорит Эрик Лернд-Миллер из Массачусетского университета в Амхерсте. Он является одним их основателей набора данных Labeled Faces in the Wild (LFW). Коллекция, состоящая из более чем 13 000 изображений лиц и имен, взятых из Интернета, стала фактическим стандартом для тестирования алгоритмов распознавания лиц.
Значительные улучшения в развитии отрасли были обусловлены аппаратными и программными достижениями в области глубокого обучения и нейронных сетей. В 2014 году Facebook опубликовал подробную информацию о своем алгоритме DeepFace, который смог набрать точность в 97,25 % в наборе данных LFW, что лишь немного уступало среднему показателю человека (97,50 %).
– Получив такие показатели, люди поняли, что идут по правильному пути, – говорит Лернд-Миллер. По его словам, это стало началом настоящей гонки вооружений среди крупнейших имен в технологической сфере. В 2015 году система FaceNet от Google достигла результата в 99,63 %. На первый взгляд данная цифра кажется больше «человеческой».
– Однако это не совсем так, поскольку довольно трудно точно измерить производительность человека, – добавляет Лернд-Миллер. Но можно справедливо утверждать, что машины теперь сравнимы с людьми.
Крупные компании также тестируют свои алгоритмы на наборе данных под названием ImageNet (более обобщенная коллекция размеченных изображений) и соревнуются в Large Scale Visual Recognition Challenge – ежегодном конкурсе, связанном с распознаванием изображений ImageNet. У Microsoft есть собственный алгоритм, результативность которого оценивается немного выше, чем при выполнении тех же операций людьми.
Один из организаторов конкурса, Ольга Руссаковски из Университета Карнеги – Меллона в Питтсбурге, штат Пенсильвания, отмечает, что алгоритмы должны классифицировать изображения по принадлежности к одной категории из тысячи. Это ничтожно мало по сравнению с тем, чего могут достичь люди. По словам Руссаковски, для демонстрации истинной разумности машины должны будут формулировать выводы о более широком контексте изображения и о происходящем на снимке через секунду после создания кадра. Последнее поколение систем распознавания изображений уже начинает это делать.
При принятии решений на основе неполной информации мы стараемся подумать, что бы сделали на нашем месте другие. Некоторые исследователи полагают, что нам стоит присмотреться к покеру и прочим играм, включающим в себя создание рассуждений в условиях полной неопределенности. Такая игра для машин окажется в разы сложнее, чем шахматы.
Современные покерные боты уже научились побеждать профессиональных игроков-людей в безлимитном холдеме один на один (Heads-Up No-Limit Texas Hold ’Em) в Техасе – сложнейшей форме игры. «Мне нравится использовать покер для тестирования, ведь здесь мы не стараемся придумать имитацию искусственного разума, – говорит Туомас Сандхольм, также работающий в Университете Карнеги – Меллона. – Для победы игроков-людей требуется настоящая разумность».
Осталась ли жизнь в тесте Тьюринга? Берти Мюллер из Общества по изучению искусственного интеллекта и симуляции поведения (оно присуждает премию Лебнера) уверен, что конкурс проводится лишь как дань традиции. По его словам, будь Тьюринг жив в наши дни, он бы сам перестал считать данный тест лучшим способом для проверки разумности.
Мюллер считает, что наблюдение за ИИ в различных средах справится с этим лучше, как если бы ребенка поместили в комнату, заваленную игрушками, и стали бы изучать его поведение. Все же мы еще слишком далеки от создания машин, способных перехитрить ребенка в его стихии.
Главный отличник в классе
Стремительно завоевывает популярность оценка знаний по школьной программе. В 2015 году система искусственного интеллекта под названием ConceptNet пошла тест на IQ, разработанный для детей дошкольного возраста и содержащий такие вопросы, как «Почему мы наносим солнцезащитный крем летом?». Результаты ИИ не превышали средний показатель четырехлетнего ребенка. В 2016 году система To-Robo успешно прошла аттестацию по английскому языку на основе вступительных экзаменов в национальный колледж Японии. Питер Кларк с коллегами тестировал искусственный интеллект по имени Aristo в Институте искусственного интеллекта Аллена в Сиэтле, штат Вашингтон, на теоретических экзаменах в государственных школах штата Нью-Йорк.
Однако это убедило не всех. Эрнест Дэвис, ученый из Нью-Йоркского университета, отмечает, что довольно часто ИИ испытывает трудности с тем, что мы считаем здравым смыслом. Исходя из этого, традиционные экзамены могут оказаться не самым лучшим способом для оценки «успеваемости» машины. Вместо этого он предлагает перейти на письменные экзамены, созданные специально для машин. Вопросы в нем будут тривиальными для людей, но слишком странными или очевидными, чтобы искать ответы на них в сети. Например: «Можно ли согнуть арбуз?»