Книга: Искусственный интеллект на службе бизнеса
Назад: Глава 1. Волшебство прогностических машин
Дальше: Глава 3. Данные – это новая нефть

Глава 2. Почему это называется «интеллект»

В 1956 году группа учеников Дартмутского колледжа в Нью-Гемпшире планировала исследование с целью создания ИИ. Их интересовало, можно ли запрограммировать компьютер на познавательный процесс, чтобы он учился, скажем, играть, доказывать математические теоремы и прочее. Также они предусмотрели язык и соответствующие данные, с тем чтобы компьютер мог описывать вещи. Они хотели, чтобы компьютер выбирал лучший из предложенных вариантов. Исследователи видели возможности ИИ в самом радужном свете. В обращении за финансированием к Фонду Рокфеллера они написали:
«Мы намерены выяснить, как научить компьютер использовать язык, оперировать абстрактными понятиями, решать разные типы задач, которые сейчас решают люди, и самосовершенствоваться. Полагаем, что за лето при условии сплоченной работы коллектива ученых мы заметно продвинемся в направлении одной из этих целей».
Но эти планы по большей части остались в мечтах. Помимо прочего, в 1950-х компьютеры были недостаточно мощными и быстродействующими для воплощения в жизнь всех замыслов студентов.
После этого заявления ИИ показал некоторый прогресс в языковых переводах, но незначительный. Разработки ИИ для узкоспециализированной среды (например, создания программы-психотерапевта) были неприменимы в других случаях. В начале 1980-х появилась надежда на создание экспертных систем для замены квалифицированных специалистов, в том числе для постановки медицинских диагнозов, но проекты оказались дорогостоящими, громоздкими и не могли учитывать миллиарды исключений и вариантов, что привело к периоду, называемому «зимой ИИ».
Но, похоже, зима закончилась. Сейчас данных больше, модели лучше, компьютеры мощнее, поэтому недавние разработки в сфере машинного обучения привели к повышению качества прогнозов. Усовершенствования в сборе и хранении большого объема данных обеспечили основу для новых алгоритмов машинного обучения. По сравнению со своими предшественниками современные компьютеры оборудованы более мощными процессорами, а новые модели машинного обучения гибче и выдают более точные прогнозы – настолько, что эту отрасль IT снова стали называть «искусственным интеллектом».

Прогнозирование оттока клиентов

В основе развития прогностики лежат улучшенные данные, модели и компьютеры. Для понимания их ценности давайте рассмотрим давнюю проблему прогнозирования «оттока клиентов», как выражаются маркетологи. Большинству компаний привлечение клиентов обходится дорого, и, следовательно, их отток приносит убытки. С набранной клиентской базой компания экономит на этих расходах, снижая отток. Сложнее всего его контролировать в сферах профессиональных услуг: страховании, финансовых операциях и телекоммуникации. Первый шаг к снижению оттока – выявление ненадежных клиентов, для чего компании могут использовать прогностические технологии.
Раньше отток клиентов прогнозировали статистическим методом, называемым «регрессия». Научные исследования позволили усовершенствовать его.
Ученые предложили и протестировали сотни различных методов регрессии в теории и на практике.
Регрессия делает прогноз на основе средних показателей прошлого. Например, если вам необходимо определить, пойдет ли завтра дождь, и у вас есть только данные за предыдущие семь дней, то оптимально использовать средний показатель. Если дождь лил два дня из семи, то вероятность завтрашних атмосферных осадков составит примерно два из семи, то есть 29 %. Но благодаря всему, что нам теперь известно о прогностике, мы можем сконструировать модели, способные извлекать из контекста больше данных и точнее рассчитывать средний показатель.
Мы делали это с помощью так называемого условного среднего значения. Например, если вы живете на севере Калифорнии, то из опыта знаете, что вероятность осадков зависит от времени года – она ниже летом и выше зимой. Таким образом, если зимой вероятность дождя достигает 25 %, а летом – 5 %, вы не считаете, что завтра она составит 15 %. Почему? Потому что вам известно, зима сейчас или лето, и прогнозируете вы с учетом этих данных.
Поправка на сезон – только одно из условий среднего значения (хотя и распространенное в розничной торговле). Учитываются также время суток, уровень загрязнения, облачность, температура океана и вообще любая доступная информация.
Поправки можно делать на несколько факторов одновременно: пойдет ли завтра дождь, если сегодня пасмурно, сейчас зима, дождь идет в 320 км к западу, в 160 км к югу солнечно, земля влажная, температура Северного Ледовитого океана низкая и дует юго-западный ветер со скоростью 24 км/ч? Однако все это обрастает громоздкими вычислениями. Только расчет среднего для семи категорий данных дает 128 комбинаций, а с дополнительными данными – в разы больше.
До машинного обучения множественная регрессия была эффективна для учета нескольких условий без необходимости рассчитывать десятки, сотни и тысячи условных средних значений.
Регрессия собирает данные и пытается извлечь результат с минимумом прогностических ошибок и с максимальной «точностью приближения», как ее называют.
К счастью, математическое значение термина точнее, чем это может показаться, исходя из формулировки. Регрессия минимизирует прогностические ошибки среднего значения и за крупные ошибки карает строже, чем за мелкие. Это достаточно надежный метод, особенно для работы с относительно небольшим объемом данных и при условии понимания, что в прогнозе самое главное. Например, если оценивать отток аудитории кабельного телевидения, то важны привычки людей; те, кто включает телевизор редко, с большей вероятностью откажутся от подписки на канал.
Кроме того, регрессионные модели способствуют генерации объективных результатов, поэтому при достаточном количестве прогнозов в среднем они будут точными. Хотя мы предпочитаем объективные прогнозы субъективным (в которых систематически переоценивается или недооценивается какой-либо показатель, например ценность), первые все еще не идеальны. Это утверждение можно проиллюстрировать старой статистической шуткой.
Физик, инженер и статистик отправились на охоту. В лесу они увидели оленя.
Физик прикинул расстояние до цели, скорость и понижение траектории пули, сделал нужные поправки, выстрелил – и промахнулся на полтора метра влево.
Расстроенный инженер упрекнул его: «Ты забыл сделать поправку на ветер. Дай сюда ружье!» Он лизнул палец, поднял руку вверх, определил направление и скорость ветра, выстрелил – и промахнулся на полтора метра вправо.
И тут статистик закричал: «Ура! Попали!» Заметим, что он даже не расчехлил ружье.
Идеальная точность в среднем иногда говорит о том, что каждый отдельный результат ошибочен. Регрессия может постоянно промахиваться на полтора метра влево и вправо. Даже если средний показатель оказывается верным, не исключено, что регрессия ни разу не попала в цель.
В отличие от регрессии, прогноз методом машинного обучения может быть ошибочным в среднем, но если промахивается, то ненамного. Статистики называют это допущением незначительных отклонений ради снижения расхождений.
Важное отличие машинного обучения от регрессионного анализа заключается в способе разработки новых методов. В процессе создания нового метода машинного обучения необходимо доказать повышенную эффективность на практике, для разработки же новых методов регрессии достаточно их работоспособности в теории. Сосредоточившись на практике, разработчики машинного обучения получают свободу для экспериментов, даже если их методы дают неверные оценки или отклонения в среднем. Именно свобода экспериментировать способствовала стремительным улучшениям, благодаря которым стало возможным воспользоваться преимуществами большого объема данных и быстродействующих компьютеров, появившихся в последние годы.
В конце 1990-х и начале 2000-х успех экспериментов с машинным обучением для прогнозирования оттока клиентов был скромным. Методы машинного обучения совершенствовались, но регрессия все еще давала в целом лучшие результаты. Данных хватало, а компьютеры не были настолько мощными, чтобы реализовать все преимущества машинного обучения.
Например, центр Teradata в Университете Дьюка в 2004 году провел турнир по анализу данных для прогнозирования оттока клиентов. Тогда подобные события были редкостью; любой мог подать заявку, а выигрыш выплачивался наличными. В призовых заявках использовались регрессионные модели. Некоторые методы машинного обучения продемонстрировали неплохие результаты, но методы нейронной сети, впоследствии совершившие революцию в ИИ, никуда не годились. В 2016 году все выглядело уже наоборот: в лучших моделях прогнозирования оттока клиентов использовалось машинное обучение, а модели с глубоким обучением (нейронными сетями) обошли все остальные.
Что же изменилось? Во-первых, объем данных и мощность компьютеров стали достаточными для повсеместного использования машинного обучения. В 1990-е было трудно собрать действительно большой объем данных. Например, в классическом исследовании прогнозирования оттока использовалось 650 клиентов и менее 30 переменных.
К 2004 году компьютерная обработка и хранение данные усовершенствовались. В турнире Дьюка обучающий набор данных содержал информацию о сотнях переменных для десятков тысяч клиентов. При таких условиях методы машинного обучения улучшились до уровня регрессии, если не превзошли его.
Современные исследователи прогнозируют отток на основе тысяч переменных и миллионов клиентов. Возросшая мощность компьютеров дала возможность анализировать огромный объем данных, включая, помимо чисел, тексты и изображения.
Например, в модели прогнозирования оттока клиентов мобильной связи исследователи использовали данные почасовой истории звонков помимо стандартных переменных, таких как сумма счета и пунктуальность оплаты.
Методы машинного обучения улучшились также за счет эффективного использования доступных данных. В конкурсе Дьюка ключевой составляющей успеха был выбор, какие данные использовать из сотен имеющихся и какую применять статистическую модель. В лучших методах того времени, будь то машинное обучение или классическая регрессия, переменные и модель выбирали с помощью комбинации статистических критериев и интуиции. Современные методы машинного (и особенно глубокого) обучения позволяют гибкость, то есть переменные сочетаются самым неожиданным образом. Скажем, клиенты со счетами на большие суммы, расходующие минуты в начале расчетного периода, уйдут с меньшей вероятностью, чем клиенты со счетами на более крупные суммы, но расходующие минуты в конце расчетного периода. Или клиенты с внушительным счетом за роуминг в выходные, которые к тому же задерживают оплату и часто обмениваются текстовыми сообщениями, уйдут с повышенной вероятностью. Такие комбинации могут сыграть в прогнозах решающую роль, но их трудно предусмотреть. И поэтому их не включают в стандартные регрессионные модели. Машинное обучение предоставляет компьютеру выбор комбинаций и взаимодействий, имеющий значение для него, а не для программиста.
Прогресс методов машинного обучения в целом и глубокого обучения в частности свидетельствует о возможности эффективного применения доступных данных для точного прогнозирования оттока клиентов. И сейчас очевидно их превосходство над регрессией и многими другими методами.

Прогнозирование в других сферах

Помимо оттока клиентов машинное обучение улучшило прогнозирование во многих других сферах, от рынка до погоды.
Финансовый кризис 2008 года ознаменовал крах основанных на регрессии прогностических методов. Отчасти в кризисе виновны прогнозы вероятности дефолта по обеспеченным долговым обязательствам. В 2007 году агентства уровня Standard & Poor прогнозировали, что в ближайшие пять лет вероятность не получить доход по обязательствам с рейтингом ААА составит 1 из 800. Пятью годами спустя больше одного из четырех обеспеченных долговых обязательств не принесли дохода. Изначальный прогноз оказался провальным, несмотря на обширные данные по предыдущим дефолтам.
Проблема заключалась не в недостатке данных, а в том, как аналитики использовали их для прогнозирования. Рейтинговые агентства исходили из моделей множественной регрессии, в которых цены на недвижимость на разных рынках друг с другом не сопоставлялись. В этом и состояла ошибка, и не только в 2007 году, но и раньше. Прибавьте сюда одновременное потрясение нескольких рынков недвижимости, и вероятность потерь на обеспеченных долговых обязательствах резко возрастает, даже если они распределены по многим городам США.
Аналитики создают регрессионные модели на основе гипотез о том, что именно (и с какими характеристиками) имеет значение, – для машинного обучения все это не нужно. Модели машинного обучения особенно хороши для вычленения полезных переменных из множества и определения, что не имеет значения, а что, как ни удивительно, наоборот. К сегодняшнему дню интуиция и гипотезы аналитиков утратили свою значимость. Таким образом, машинное обучение позволяет делать прогнозы на основе непредусмотренных сопоставлений, как, например, то, что цены на недвижимость в Лас-Вегасе, Фениксе и Майами изменятся одновременно.

Если это всего лишь прогноз, за что его называют интеллектом?

Недавний прогресс в машинном обучении преобразовал применение статистики для прогнозирования. Последний рывок в развитии ИИ наводит на мысль, что машинное обучение – это всего-навсего «навороченная традиционная статистика». В каком-то смысле так и есть, поскольку цель та же – заполнение информационных пробелов. К тому же в процесс машинного обучения входит поиск решения с минимизацией ошибок.
Итак, за что же машинное обучение считается революционной вычислительной технологией и заслужило название «искусственный интеллект»? В некоторых случаях прогнозы настолько хороши, что их можно использовать вместо основанной на правилах логики.
Эффективная прогностика меняет компьютерное программирование. Ни традиционные статистические методы, ни алгоритмы «если, то» не работают в сложной среде настолько успешно. Хотите найти кошку на одном изображении из нескольких представленных? Уточните, что кошки бывают разного окраса и с шерстью длинной, короткой, курчавой и т. д. Они могут стоять, сидеть, лежать, прыгать, хмуриться, как Грампи-кэт, и находиться где угодно. Все сразу усложняется: даже для более или менее сносных результатов следует предусмотреть очень многое. И это только в отношении кошек. А если необходимо описать все объекты на изображении? Для каждого придется составлять отдельные спецификации.
Ключевая технология глубокого обучения основана на так называемом обратном распространении. С ним машина учится примерно так же, как наш мозг – на примерах (насколько искусственные нейроны похожи на настоящие – еще один интересный вопрос помимо достоинств технологии). Когда ребенка учат слову «кошка», то повторяют его каждый раз при появлении животного; в машинном обучении действует тот же самый принцип. Снабдите компьютер фотографиями кошек с названием «кошка» и фотографиями без кошек и, соответственно, без этого названия. Машина научится распознавать паттерны пикселей, связанные с названием «кошка».
При наличии фотографий с кошками и собаками связь между кошкой и четырехногим объектом укрепится, как и связь между ним же и собакой. Без дальнейших уточнений можно загрузить несколько миллионов разных изображений (в том числе без собак) с названиями, тогда у машины появится больше ассоциаций, и она научится отличать кошек от собак.
Большинство проблем перешли из алгоритмической категории («Каковы признаки кота?») в прогностическую («Есть ли на этом изображении без названия что-нибудь похожее на кошек, которых я уже видел?»). Для решения задач машинное обучение использует вероятностные модели.
Почему же технические специалисты называют машинное обучение интеллектом искусственным? Потому что его результат – прогноз – представляет собой ключевую составляющую интеллекта, точность прогнозов возрастает в процессе обучения, а высокая степень точности позволяет машинам выполнять задачи, которые до недавнего времени считались прерогативой человеческого интеллекта, – такие как распознавание объектов.
В книге «Об интеллекте» Джефф Хокинс одним из первых заявил, что прогноз являет собой основу человеческого интеллекта. Суть теории Хокинса такова: интеллект человека, лежащий в основе творческого начала и продуктивной деятельности, обусловлен тем, как мозг использует память для прогнозирования: «Мы осуществляем непрерывное прогнозирование на низком уровне всеми органами чувств одновременно. И это еще не все. У меня есть более серьезное предположение. Прогностика – не просто одна из функций мозга, это первичная функция неокортекса и базис интеллекта. Кора головного мозга является прогностическим органом».
Хокинс считает, что наш мозг постоянно делает прогнозы относительно всего, что мы испытаем в ближайшие мгновения: что увидим, почувствуем или услышим. С развитием и взрослением прогнозы становятся все точнее и чаще всего сбываются. Если же нет, мы замечаем несоответствие между предполагаемым и произошедшим, информация поступает в мозг, который обновляет свои алгоритмы и таким образом учится и совершенствуется.
Теорию Хокинса воспринимают неоднозначно. Его идеи обсуждаются в психологической литературе, а многие IT-специалисты категорически отрицают утверждение о коре головного мозга как модели для прогностических машин. Предположение, что ИИ может пройти тест Тьюринга (на способность обмануть человека, убедив его, что тоже является человеком), пока еще далеко от реальности. Современные алгоритмы не умеют убеждать, к тому же с ними сложно вести переговоры для выяснения основания их прогнозов.
Независимо от того, насколько уместна аналогия Хокинса, его утверждение о прогностике как базисе интеллекта удобно для понимания значения недавнего развития ИИ. Мы хотим подчеркнуть огромные последствия усовершенствования прогностических технологий. Теперь до вдохновенных идей Дартмутского семинара 1956 года рукой подать. Прогностические машины различными способами могут «использовать язык, оперировать абстрактными понятиями, решать разные типы задач, которыми сейчас [в 1955 году. Прим. авт.] занимаются люди, и самосовершенствоваться».
Мы не строим домыслов о том, возвещает ли этот прогресс появление общего ИИ – приход технологической сингулярности, подобной «Скайнет». Однако, как вы убедитесь, если пристально посмотрите на прогностику, грандиозные перемены в ближайшие несколько лет вполне реальны.
Так же как дешевая арифметика с распространением компьютеров ознаменовала волну перемен в деловой и частной жизни, аналогичные преобразования не заставят себя долго ждать с удешевлением прогнозов.
Интеллект это или нет, но в целом переход от детерминированного программирования к вероятностному произошел скачком, хотя и параллельно с прогрессом в общественных и естественных науках. Канадский философ Ян Макдугалл Хакинг в книге «Укрощение случайности» сказал, что до начала XIX века вероятность была прерогативой азартных игроков. С наступлением XIX века и ростом государственной статистики зарождающаяся вероятностная математика стала применимой к общественным наукам. В ХХ веке произошло фундаментальное изменение нашего понимания физики, и мы перешли от детерминистских ньютоновских взглядов к неопределенности квантовой механики. Важнейший прорыв XXI века в IT сравним с предыдущими достижениями в социальных и естественных науках: осознание того, что алгоритмы лучше работают с вероятностной структурой данных.

Выводы

• Цели машинного обучения отличаются от статистических. Статистика стремится к точности среднего показателя, в машинном обучении этого не требуется. Его цель – практическая эффективность. Смещение прогнозов допускалось при условии, что они были точнее (что стало возможным из-за увеличения мощности компьютеров). Это дало ученым простор для экспериментов и быстро принесло улучшения, благодаря которым стало возможным воспользоваться преимуществами большого объема данных и быстродействующих компьютеров, появившихся в последние годы.
• В традиционных статистических методах для спецификаций модели необходимы сформулированные гипотезы или, по крайней мере, человеческая интуиция. Машинное обучение не требует предварительной спецификации и вмещает в себя эквиваленты гораздо более сложных моделей с большим количеством взаимодействий между переменными.
• Прогресс машинного обучения называют достижением ИИ, поскольку:
• основанные на данном методе системы учатся и постепенно совершенствуются;
• системы выдают значительно более точные прогнозы, чем другие при аналогичных условиях, а некоторые специалисты считают прогностику базисом интеллекта;
• повышенная точность прогнозов таких систем позволяет им выполнять задачи, такие как языковой перевод и навигация, ранее считавшиеся прерогативой исключительно человеческого интеллекта.
• По поводу связи между прогнозом и интеллектом мы придерживаемся агностической точки зрения. Ни одно из наших заключений не основано на позиции, утверждающей, что достижения прогностики представляют собой интеллектуальные достижения. Мы рассматриваем последствия удешевления прогнозов, а не интеллекта.
Назад: Глава 1. Волшебство прогностических машин
Дальше: Глава 3. Данные – это новая нефть