Как и любому другому человеку, порой мне сопутствует удача, порой нет. Черные и белые полосы в моей жизни чередуются точно так же, как и в вашей. Но мне всегда хочется узнать — не могло ли все произойти иначе? Для начала позвольте мне рассказать вам шесть коротких историй.
Все эти ситуации важны. От них может зависеть, будет ли успешным или неудачным ваш день, год или вся жизнь. Но что между ними общего?
Все эти проблемы — и многие другие, им подобные, — лучше всего решаются через прогнозирование. Будет ли результат хирургической операции положительным для пациента? Не может ли обращающийся за кредитом человек оказаться мошенником? Не может ли ипотечный кредит стать непосильным бременем для домовладельца? Отреагирует ли клиент на отправленный ему рекламный буклет? Через прогнозирование подобных вещей можно существенно улучшить качество медицинского обслуживания, снизить финансовые риски, свести на нет спам, повысить эффективность борьбы с преступностью и сократить расходы.
Есть и другой аспект. Помимо очевидной выгоды для нас с вами как для потребителей прогнозирование полезно и для организаций, давая им в руки совершенно новый вид оружия в конкурентной борьбе. Компании набрасываются на прогнозы, как коршуны, — в положительном смысле.
В середине 1990-х годов ученый-предприниматель по имени Дэн Стейнберг пришел в штаб-квартиру крупнейшего американского банка Chase, чтобы предложить свою систему прогнозирования для управления миллионами ипотечных кредитов. Этот банковский колосс поверил в технологию прогнозирования, предложенную Стейнбергом, и взял ее за основу для принятия решений, касающихся операций со своим гигантским ипотечным портфелем. Что написал этот парень в своем резюме?
Прогнозирование — это сила. Крупный бизнес обеспечивает себе непоколебимое конкурентное преимущество, прогнозируя будущую судьбу и стоимость отдельных активов. В вышеупомянутом случае это означало, что, принимая решения по ипотечным кредитам на основе прогнозирования будущей платежеспособности домовладельцев, Chase уменьшал риск и получал дополнительную прибыль, которой в противном случае у него не было бы.
Стремительно развиваясь и проникая во все новые сферы, сегодня предиктивные технологии стали обыденным явлением и затрагивают каждого из нас каждый день. Они влияют на ваш опыт незаметным образом — когда вы ведете машину, покупаете, учитесь, голосуете, обращаетесь к врачу, общаетесь, смотрите телевизор, зарабатываете деньги, берете в долг или даже крадете.
Эта книга рассказывает о наиболее значимых достижениях в области компьютерного прогнозирования и о двух силах, стоящих за ними: об увлеченных людях и увлекательнейшей науке, двигающих этот прогресс.
Прогнозирование — в высшей степени непростая задача. Каждый прогноз зависит от множества факторов: широкого разнообразия известных параметров, характеризующих каждого пациента, домовладельца или сообщение по электронной почте, которое может оказаться спамом. Как справиться с этой сложнейшей задачей — соединить вместе все части головоломки для составления конкретного прогноза?
Идея проста, хотя воплотить ее на практике не так просто. Проблема решается путем применения систематического научного подхода для развития и постоянного совершенствования наших умений в области прогнозирования. Другими словами, нам необходимо в буквальном смысле научиться прогнозировать.
Решение кроется в машинном обучении — компьютеры автоматически приобретают новые знания и способности, жадно поглощая самый ценный и самый мощный неприродный ресурс современного общества: данные.
Данные — это новая нефть.
Единственным источником знаний является опыт.
Богу мы верим, все остальные должны предоставлять данные.
Большинство людей не испытывают никакого интереса к данным. Что может быть скучнее, чем эти бесконечные массивы сухих цифр и фактов, порой столь банальных, как пост в Twitter типа «Я купил себе новые кроссовки!». Это бесполезный побочный продукт, который в огромных количествах образуется в процессе ведения любого бизнеса.
Вы ошибаетесь! Правда в том, что данные представляют собой бесценное собрание опыта, на котором можно учиться. Каждая медицинская процедура, кредитная заявка, публикация на Facebook, рекомендация фильма, акт мошенничества, спам-сообщение или покупка — каждый положительный или отрицательный результат, каждая успешная или неудачная попытка продажи, каждый инцидент, событие и транзакция — кодируются как данные и сохраняется в базе данных. По оценкам, объемы данных увеличиваются на 2,5 квинтиллиона байтов в день (это единица с 18 нулями). Вот где произошел настоящий Большой взрыв, породив безграничные потоки сырых, необработанных данных, с которыми могут справиться только компьютеры. При правильном использовании компьютеры жадно поглощают этот океан данных — и учатся на них.
Иногда погоня за данными превращается в настоящую золотую лихорадку. Но данные — это не золото. Повторяю, необработанные данные — это сырье. Золото — то, что можно из них добыть.
Процесс машинного обучения на основе данных раскрывает всю мощь этого все возрастающего ресурса. Он позволяет выявить, что движет людьми и их поступками, что цепляет нас за душу и как устроен мир. Получение таких знаний и делает прогнозирование возможным.
Например, благодаря машинному обучению мы получили такие ценные сведения, как:
Машинное обучение опирается на подобные знания, чтобы совершенствовать прогнозные возможности систем через процесс обработки больших объемов данных по методу проб и ошибок, уходящий корнями в статистику и компьютерную науку.
Располагая такими возможностями, что мы хотели бы спрогнозировать? Фактически все, что делает человек, стоит того, чтобы стать предметом прогнозирования, — а именно то, как мы потребляем, думаем, работаем, уходим, голосуем, любим, воспроизводим потомство, разводимся, создаем проблемы, обманываем, воруем, убиваем или умираем. Давайте рассмотрим некоторые примеры.
Я не боюсь смерти, я просто не хочу при этом присутствовать.
Экономист — это специалист, который назавтра узнает, почему не произошло то, что он предсказывал вчера.
Почему вы никогда не увидите заголовок «Экстрасенс выиграл в лотерею»?
Все из перечисленных в предыдущем разделе достижений стали возможны благодаря прогнозированию, которое в свою очередь является результатом машинного обучения. Между всеми этими разнообразными примерами и научной фантастикой есть одно ключевое различие: они не вымышлены. И эти примеры — лишь скромный срез существующей ныне реальности. Можно с уверенностью сказать, что сила прогнозирования отныне всегда пребудет с нами.
Но не является ли такое утверждение чересчур смелым? В свое время датский физик Нильс Бор сказал: «Очень трудно сделать точный прогноз, особенно о будущем». В конце концов, возможно ли прогнозирование в принципе? Будущее покрыто мраком неизвестности, и неопределенность — единственное, в чем мы можем быть уверены.
Позвольте же мне немного рассеять перед вами туман в этой области. В принципе, точное прогнозирование невозможно. Даже погода прогнозируется всего лишь с 50%-ной точностью, а предсказать поведение людей, будь то пациентов, клиентов или преступников, ничуть не проще.
Но есть и хорошая новость! Прогноз не должен быть точным на 100%, чтобы представлять собой большую ценность. Например, одним из самых простых и эффективных применений технологии прогнозирования в коммерческой области является выбор целевой группы для прямой почтовой рассылки рекламных материалов. Если маркетологи могут выявить определенную группу людей, которые, скажем, отреагируют на эти материалы положительно с вероятностью в три раза большей, чем средний потребитель, компания может существенно сэкономить, удалив «не реагирующих» людей из списка рассылки. А эти люди, в свою очередь, выиграют оттого, что получат по почте меньше макулатуры.
Таким образом, бизнес уже давно использует эту игру с цифрами для массового маркетинга, деликатно, но весомо склоняя чащу весов на свою сторону, — и делает это без высокоточных прогнозов. На самом деле, чтобы прогнозирование имело практическую ценность, довольно и низкой точности. Если в среднем ответная маркетинговая реакция составляет 1%, то в выделенной группе доля потенциальных покупателей увеличивается до 3%. В данном случае мы не можем с уверенностью предсказать, отреагирует или нет каждый отдельно взятый адресат на рекламную рассылку. Но стоимость создается благодаря выявлению группы людей, которые — в совокупности — склонны вести себя определенным образом.
Это демонстрирует в общих чертах то, что я называю эффектом прогнозирования. Прогнозирование, даже не отличающееся высокой точностью, всегда лучше создает реальную стоимость, чем чистые догадки. Гораздо лучше иметь хотя бы смутное представление о том, что произойдет в будущем, чем пребывать в полной неизвестности.
Эффект прогнозирования: малым достигается многое. |
Это первый из пяти эффектов, о которых рассказывается в этой книге. Вероятно, вы уже слышали об эффекте бабочки, эффекте Доплера и эффекте плацебо. Оставайтесь с нами, и вы узнаете также об эффекте данных, эффекте индукции, эффекте ансамбля и эффекте воздействия. Рассказ о каждом из них включает любопытные сведения из области науки и технологий: интуитивный взгляд, раскрывающий перед вами, как это работает и почему позволяет достигать успешных результатов.
Люди… действуют на основе своих убеждений и предубеждений. Если вы сможете устранить то и другое и заменить их данными, вы получите реальное преимущество.
О какой области знаний или отрасли науки мы здесь говорим? Обучение тому, как прогнозировать на основе данных, иногда называют машинным обучением — но это преимущественно научный термин, который используется в исследовательских лабораториях, на научных конференциях и в университетах (например, в конце 1990-х я несколько раз вел курс по машинному обучению в Колумбийском университете). Хотя именно в этих академических кругах куются новые знания, это не то место, где шины соприкасаются с дорогой. Там, где машинное обучение находит реальное практическое применение — в коммерческой, промышленной и государственной сферах, — его называют иначе:
Прогнозная аналитика (ПА, англ. predictive analytics) — технология, опирающаяся на опыт (данные) для прогнозирования будущего поведения людей с целью принятия оптимальных решений.
Построенная на фундаменте компьютерных наук и статистики и активно развиваемая благодаря научно-исследовательским программам, прогнозная аналитика превратилась в самостоятельную дисциплину. Но ПА шагнула далеко за пределы теоретической науки и стала мощным практическим инструментом, оказывающим непосредственное влияние на нашу повседневную жизнь. Ежедневно она влияет на миллионы решений, касающихся того, кому позвонить, отправить почту, назначить диагностику или профилактические мероприятия, кого пригласить на свидание, предостеречь или посадить в тюрьму. ПА дает возможность принимать персонализированные решения в отношении каждого человека. Отвечая на массу мелких вопросов, ПА на самом деле может дать нам ответ на ключевой вопрос: как можно повысить эффективность всех этих многосложных функций в таких сферах, как государственное управление, здравоохранение, бизнес, правоохранительная и некоммерческая деятельность?
Таким образом, ПА кардинально отличается от стандартного прогнозирования (которое в английском языке называется словом forecasting). Последнее производит совокупные прогнозные оценки на макроскопическом уровне. Как будет развиваться экономика? Какой кандидат в президенты наберет больше голосов в Огайо? В то время как совокупная прогнозная оценка скажет вам, сколько стаканчиков мороженого будет куплено в штате Небраска в следующем месяце, ПА позволит узнать, какие именно жители Небраски вероятнее всего соблазнятся на эту покупку.
ПА является ведущим направлением в рамках растущей тенденции по принятию решений, «основанных на данных», опирающихся не на «чутье», а на объективные эмпирические факты. Но как только вы вступаете в эту область, вы тут же сталкиваетесь с массой замысловатых названий, таких как наука о данных, бизнес-аналитика, обработка больших данных и т.п. Хотя ПА входит в каждое из перечисленных определений, эти красочные термины имеют больше отношения к общей культуре и сферам профессиональной компетенции специалистов, занимающихся инновационными и творческими манипуляциями с данными, чем к конкретным технологиям или методам. Это многозначные термины; иногда они могут означать всего лишь стандартные отчеты в Excel — т.е. вещи важные и требующие значительного мастерства, но не опирающиеся на науку или сложную математику. Другими словами, в каждом конкретном случае их наполнение субъективно. Как однажды выразился Майк Лукидес, вице-президент инновационного издательства O’Reilly: «Наука о данных похожа на порнографию — когда видишь, понимаешь, что это». Еще один термин data mining — «извлечение знаний из данных», или интеллектуальный анализ данных — может использоваться как синоним прогнозной аналитики, но эта образная метафора может описывать и другие способы добычи знаний из данных, а также часто употребляется в более широком смысле.
Ведущие компании в эпоху Интернета, в том числе Google и Amazon… имеют бизнес-модели, которые опираются на предиктивные модели, основанные на машинном обучении.
Если рассматривать организацию как своего рода «мегачеловека», не означает ли это, что она нуждается в «мегаобучении»? Люди объединяются в группу — будь то компания, правительство, больница, университет, благотворительная организация и т.п., — чтобы служить интересам ее членов и тех, кого она обслуживает. Будучи сформированной, группа выигрывает от разделения труда, взаимодополняющих навыков и эффекта масштаба. Возможности группы как целого намного превосходят сумму возможностей отдельных ее членов. Коллективное обучение является следующим логическим шагом для организации, позволяющим еще больше увеличить ее коллективный потенциал. Точно так же, как торговый агент со временем учится на своем положительном и отрицательном опыте взаимодействия с потенциальными клиентами, на своих успехах и неудачах, ПА дает в руки организации инструмент, посредством которого она может учиться на опыте, приобретаемом ею через отдельных ее членов и компьютерные системы. На самом деле организация, которая не использует получаемые ею данные таким образом, похожа на человека с фотографической памятью, который не умеет с пользой применять этот дар.
За редкими исключениями именно организации, а не отдельные люди, максимально выигрывают от использования ПА. Организации принимают огромное количество операционных решений, но, поскольку по природе своей они неэффективны и расточительны, существует значительный простор для оптимизации и улучшений. Маркетинговые службы делают массовые почтовые рассылки, но значительная часть рекламного материала, для изготовления которого тратится немало денег и вырубается немало деревьев, попадает прямиком в мусорную корзину. По оценкам, 80% всех сообщений по электронной почте является спамом. Рискованным заемщикам выдается слишком много кредитов. Заявления на предоставление государственных пособий накапливаются в огромных количествах и не рассматриваются в срок. И это при том, что организации располагают изобилием данных, которые могут быть использованы для прогнозирования и соответствующего улучшения операций.
В коммерческом секторе прибыль является движущей силой. Только представьте себе, какие вырисовываются многообещающие перспективы, если повседневные рутинные операции станут более эффективными, целевой маркетинг — более точным, если будет предотвращаться больше попыток мошенничества, выдаваться меньше кредитов ненадежным заемщикам и привлекаться больше онлайн-клиентов. Позволяя оптимизировать критически важные операции, ПА существенно увеличивает коллективные возможности организации и ее эффективность в целом.
Самой привлекательной профессией в ближайшие десять лет будет профессия статистика.
Альтернатива прогнозированию будущего — анализ прошлого… а для этого нужно всего лишь иметь хорошую память.
Но прибыль — не единственный мотиватор. Источник энергии, главная сила, движущая эту махину вперед, — это «Сила умников»! Я имею в виду специалистов-практиков и их энтузиазм. По правде говоря, моя страсть к прогнозной аналитике проистекает вовсе не из ее ценности для организаций. Я занимаюсь этим ради собственного удовольствия. Идея, что машины действительно могут учиться, завораживает меня, и гораздо больше меня интересует то, что происходит внутри черного ящика, чем полезность происходящего для внешнего мира. Возможно, именно этот движущий мотив и отличает настоящего «умника» от других людей. Мы любим технологии; мы одержимы ими. Показательный пример: ведущее программное обеспечение с открытым исходным кодом, используемое в прогнозной аналитике, название которой состоит из одной буквы R (умники любят такие странные названия), имеет быстро расширяющуюся базу пользователей и добровольцев-разработчиков, которые совершенствуют его функциональные возможности и обеспечивают поддержку. Огромное число профессионалов и любителей стекаются на публичные конкурсы в сфере ПА, для которых характерен дух не столько состязательности, сколько сотрудничества. Мы работаем в организациях или консультируем их. Мы — востребованные специалисты, поэтому много летаем. И летаем высшим классом.
Что вы делаете с вашим ЦП [центральным процессором],
Чтобы в полной мере реализовать его потенциал?
Используйте ваш мозг с умом,
Чтобы его производительность росла
в геометрической прогрессии.
Если вы хотите сделать свой компьютер умнее,
Есть один только путь —
Саморазвитие путем проб и ошибок.
Много лет назад человечество создало Совершенную универсальную машину и, следуя необъяснимому порыву преуменьшить гениальность своего творения, дало ему имя «компьютер» (первоначально в английском языке это слово означало человека, производящего вычисления вручную). Эта машина могла выполнять любой бесконечный набор сложнейших инструкций без единой ошибки и жалобы, и за несколько десятилетий ее скорость и возможности возросли настолько, что человечество могло только восклицать: «Черт возьми, неужели мы это сделали?!» Этому фантастическому устройству гораздо больше подошло бы величественное название La Machine, но по иронии судьбы через несколько десятков лет это имя было даровано кухонному комбайну (я не шучу). Какая жалость. «Что мы должны делать с компьютером? Каков его истинный потенциал, и как нам использовать его в полной мере?» — в изумлении спрашивало себя человечество.
Между компьютером и нашим головным мозгом есть нечто общее, что, с одной стороны, наделяет их тайной, а с другой — делает в наших глазах чем-то абсолютно естественным и само собой разумеющимся. Если, размышляя над этим предложением, вы слышали, как мимо вас пролетела муха, вы понимаете, о чем я говорю. И мозг, и компьютер работают в тишине. Их механизмы не издают ни звука. Да, у компьютеров есть дисководы и вентиляторы, которые могут издавать некоторый шум, — так же как ваша голова, в которой заключен ваш мозг, может издавать сопение, чихи и храпы, — но вся основная работа осуществляется ими без участия «движущихся частей», так что эти усилия происходят абсолютно бесшумно и незаметно. В результате вывод информации на монитор или появление гениальных идей в вашем уме могут показаться настоящим чудом.
И наш головной мозг, и компьютер обладают поистине дьявольской мощностью. Так можно ли запрограммировать компьютер таким образом, чтобы научить его думать и чувствовать или сделать по-настоящему разумным? Кто знает? В лучшем случае это можно рассматривать как стимулирующие философские вопросы, на которые трудно дать ответ; в худшем — сделать их мерой успеха, который вследствие своей субъективности всегда будет оставаться недосягаемым. К счастью, в одном из вопросов у нас есть полная ясность: компьютеры обладают одной поистине впечатляющей, ключевой способностью, присущей человеку, — они умеют учиться.
Но как? Оказывается, что обучение — умение делать общие выводы на основе частных наблюдений — непростая задача. Это глубокая философская проблема. Задача машинного обучения состоит в том, чтобы находить закономерности, которые проявляются не только в имеющихся данных, но и в общем, за их пределами, чтобы результат обучения был верен и в новых ситуациях, которые ранее никогда не возникали. По сути, именно способность к выявлению таких закономерностей и обобщению является волшебной пилюлей ПА. Разработка методов машинного обучения — настоящее искусство. Чуть дальше мы более подробно остановимся на этой теме, а сейчас я дам вам одну подсказку. Компьютер узнает о том, как вы вероятнее всего поведете себя в той или иной конкретной ситуации, изучая других людей, а не вас.
Продолжая засыпать вас головоломками, я хочу загадать еще одну загадку: что часто происходит с нами, чего нельзя наблюдать и в отношении чего нельзя быть уверенным в том, что это произойдет с нами снова, — но что может быть спрогнозировано заранее? Ответ на загадку вы найдете в последней главе этой книги.
Извлечение информации из данных с целью прогнозирования — это только первый шаг. Сделать следующий шаг и начать действовать на основе прогнозов — вот где требуется настоящая смелость. Как вы узнаете из захватывающей истории, которую я расскажу вам в главе 1, применение прогнозной аналитики в реальной деятельности по остроте ощущений сопоставимо с запуском ракеты в космос.