Глава 1
Как научиться разбираться в данных
Основной инструментарий цифрового гражданина
В XVIII веке грамотным считался человек, способный прочитать вслух знакомые ему куски из Библии или катехизиса; в наши дни человека, не умеющего большего, сочли бы функционально неграмотным – неспособным усвоить тексты, которые необходимы для экономического выживания.
Джордж Миллер
Как устроена обработка данных и какая именно информация о вас представляет ценность?
«Данные для людей» – не просто лозунг. В повседневной жизни мы постоянно сталкиваемся с информационными продуктами и услугами в виде рейтингов и рекомендаций, созданных на основе социальных данных. На смену традиционным рекламным деятелям пришли специалисты по обработке и анализу данных, которые пропускают через просчитанные алгоритмы несметные количества цифровых следов миллиардов людей. Изменения в ментальности имеют даже более важное значение, чем лавинообразный рост количества получаемой нами информации. Чтобы сделаться полноценным участником революции в использовании социальных данных, необходимо отбросить старые «потребительские» установки по принципу «бери, что дают» и переключиться на новое мышление – мышление активного созидателя социальных данных. Происходят сдвиги в балансах сил между продавцами и покупателями, банкирами и заемщиками, работодателями и работниками, докторами и пациентами, учителями и учениками. Информация о людях и от людей может и должна стать информацией для людей.
На самом деле нет ничего важнее запроса на информацию для людей. Социальные данные – самое ценное сырье XXI века, новая нефть. Такая аналогия представляется вполне уместной по целому ряду причин. На протяжении более чем ста лет нашу экономику и общественно-политическую жизнь во многом определяли нефть и развитие технологий ее добычи, хранения и переработки в продукцию, потребляемую каждым жителем планеты. Сегодня возможность переработки персональных данных в продукты и услуги привносит в жизнь человечества изменения, сопоставимые с эффектом промышленной революции.
Нефть не используется в ее первичном состоянии. Ее нужно переработать в автомобильное горючее, пластмассы и многие другие продукты нефтехимии. В свою очередь нефтепереработка дала толчок развитию техники индустриальной эпохи и сыграла важную роль в производстве подавляющего большинства видов физической продукции современной экономики. Схожим образом и первичные персональные данные сами по себе являются достаточно бесполезными. Данные приобретают ценность в результате переработки – агрегирования, анализа, сравнения, фильтрации и дистрибуции новых информационных продуктов и сервисов. В отличие от продукции нефтепереработки, продукты переработки данных становятся основой не индустриальной революции, но революции социальных данных.
К счастью, информация как ресурс радикальным образом отличается от нефти. Запасы нефти на планете конечны, и по мере истощения этого ресурса его эксплуатация обходится все дороже. Количество же информации, напротив, растет в геометрической прогрессии, а стоимость технологий ее передачи и обработки неуклонно снижается. По состоянию на конец 2015 года смартфонами пользовались более половины совершеннолетних граждан. Среднестатистический американец проводит в разговорах по мобильному телефону примерно два часа в день. По существующим оценкам, в течение дня люди прикасаются к своим телефонам от двухсот до трехсот раз – едва ли не чаще, чем большинство из нас прикасается к своей партнерше за месяц. Информация, в отличие от нефти, не иссякнет никогда.
Использование нефти ограничено факторами ее дефицита и вещной формы, а использование информации практически не ограничено, учитывая ее изобилие и цифровую форму. Конкретный объем сырой нефти может быть использован для переработки в готовую продукцию лишь единственным владельцем, тогда как одним и тем же информационным массивом могут одновременно пользоваться и превращать его в разнообразные продукты многие. В основе наших законов и социальных норм лежит идея дефицитности информации. Так, например, отсутствие информационного поля породило страхование как способ защиты от неприятностей и материальных потерь, связанных с чрезвычайными жизненными обстоятельствами. Поскольку возможность точно рассчитать вероятность заболевания диабетом или ограбления для каждого конкретного человека отсутствовала, страховщики делили людей на группы риска и устанавливали для каждой из них среднюю ставку страховых взносов. По мере роста объема информации мы сможем прогнозировать риск для каждого конкретного человека и индивидуализировать суммы страховых взносов. Можно делать вид, что данных не существует, но можно признать факт их наличия и задуматься над тем, как это может изменить нашу жизнь. Какой мир нам хотелось бы создать при помощи этого нового вида ресурсов?
Богатый потенциал возможностей новых технологий можно раскрыть при наличии соответствующих инструментов. До изобретения Гутенбергом печатного станка книг было мало, а доставка новостей жителям отдаленных местностей обходилась дорого. Большая часть населения не извлекала никакой выгоды от долгих часов, потраченных на обучение чтению. Профессор психологии Принстонского университета Джордж Миллер писал о современных стандартах грамотности еще до изобретения интернета. Его беспокоило, что слишком многие ученики не достигают в чтении, математических и научных дисциплинах того уровня навыков, которые необходимы для получения работы в экономике «интеллектуальных услуг». Я считаю, что сегодня налицо другая, не менее насущная потребность в грамотности нового типа – информационной. Она подразумевает понимание процесса переработки информации, знание изменяемых и неизменяемых параметров, умение интерпретировать ошибки и понимать возможные последствия передачи информации о себе. Для мира, где большую часть наших решений будут направлять рекомендации, полученные на основе обработки социальных данных, такая грамотность является обязательной.
Процесс переработки данных
Неудивительно, что одним из первых «инфоперерабатывающих заводов» стало предприятие розничной торговли – компания Amazon. Преуспевающий магазин обязан знать, какие товары, интересующие потенциальных покупателей, должны быть в наличии, а для этого нужно отслеживать данные о товарообороте, ценах, рекламе и потребительских предпочтениях своей целевой аудитории.
Двести лет назад практически вся информация, нужная хозяину магазина, заключалась в данных об остатках товара на полках и денег в кассе. По окончании каждого торгового дня эти данные вписывали чернильной ручкой в гроссбух. При выборе покупок из примерно одинакового ассортимента в одной и той же ценовой категории покупатель руководствовался информацией о надежности, привлекательностью упаковки или же мнением друзей, соседей и родственников. Примерно 150 лет назад несколько компаний, самыми известными из которых были Montgomery Ward и Sears & Roebuck Company, порадовали жителей провинциальных американских городков каталогами для заказа товаров почтой. Эти инноваторы своего времени знали, что именно обычно заказывает конкретный покупатель и куда ему доставляют товары, и поэтому могли определять уровень спроса на отдельные виды продукции в разрезе регионов. Сто лет назад, для того чтобы прогнозировать спрос и оптимизировать товарные запасы, компании, занимавшиеся торговлей по каталогам, открывали и шоурумы, и обычные магазины, а также держали целые армии аналитиков, прочесывавших статистику продаж. Спустя еще пятьдесят лет в розничной торговле опять произошли важные перемены. С появлением системы почтовых индексов в США рассылочным фирмам и их торговым точкам стало проще отслеживать особенности своих потребителей. В течение двух следующих десятилетий компании смогли собрать подробную демографическую информацию о людях, проживающих в различных географических областях. А вошедшие в обиход американцев с середины 1960-х годов кредитные карточки позволили собирать данные о покупках конкретного потребителя. До наступления эпохи интернета это был предел детализации личных данных – где человек живет и сколько и где он тратит.
Основанная в 1969 году компания-брокер данных Acxiom и ряд других вдоль и поперек анализировали данные домохозяйств, распределяя частных лиц по потребительским нишам, в которых фигурировали, например, сегменты «Образцово-показательных граждан», «Барских домов», «Селян с дробовиками» и «Пригородных наседок». И это еще не самые худшие образцы социальной стереотипизации. В качестве источников информации у этих брокеров были только официальная статистика и отчетность о покупках по каталогам. Например, узнать о том, сколько в данной местности имеется домов с бассейнами, можно было из кадастровой оценки недвижимости. Во времена, когда информации о потребителях было немного, маркетинговое сегментирование стало неслыханным прорывом. К началу нового тысячелетия годовая выручка Acxiom достигла почти миллиарда долларов.
Желание этих брокеров распространить свою аналитику и на интернет-торговлю было вполне естественным. За год до моего прихода в Amazon я работал с командой специалистов Acxiom над возможностью включения цифрового компонента в их базы данных, основанные на почтовых индексах и адресах домохозяйств. Менеджеры Acxiom пытались найти способ привязки нужного адреса электронной почты к уже имеющимся в базе данным о домохозяйстве. И пока Acxiom рассматривала возможность совершения одного небольшого шага, Amazon и остальные были уже на старте гигантского рывка к изобилию социальных данных. Я очень хорошо помню, как за шесть лет до появления первого айфона пытался объяснить менеджерам, что данные из онлайна в скором будущем позволят компаниям знать о домохозяйствах значительно больше. Торговля получит возможность отслеживать каждый поисковый запрос, каждый клик и каждую покупку, обращать внимание на каждую недооформленную «корзину покупок». Имея в своем распоряжении такой объем информации, компании смогут по-настоящему индивидуализировать маркетинг своих товаров и услуг, то есть ориентировать его на сегмент, состоящий из одного человека.
Из-за стремления торговать всем, что угодно, Amazon иногда называют «магазином всего», но, учитывая, насколько тщательно компания сохраняет каждый бит информации о своих клиентах и товарах, более правильным было бы называть ее «магазином, запоминающим все». В ассортименте предложений Amazon – сотни миллионов наименований, и поэтому она не может показать все, что в него входит. Пролистать весь ассортимент компании не получится в силу его масштаба. Компания не сможет показать вам что-то подходящее, пока вы не скажете ей, что именно вы ищете. Для того чтобы получить ранжированные результаты поиска, вам придется поделиться информацией. Варианта сохранить области своего интереса втайне от продавца у вас нет.
В 2002 году, когда я начал работать в Amazon, в числе прочих мы решали задачу перехода от анализа на уровне почтовых индексов к максимальному использованию всей информации о взаимодействии посетителей с сайтом. В итоге мы с командой определили пятьсот существенных признаков для каждого пользователя. А начиналась эта работа с того, что мы задались целым рядом вопросов, например: влияет ли расстояние между адресом доставки и ближайшим книжным магазином на то, как часто данный покупатель делает заказы в Amazon или на стоимость заказа? Можно ли прогнозировать покупательское поведение на основе типа его кредитной карты? Кто оставляет в Amazon больше денег за год – покупатели, делающие заказы в нескольких категориях, или те, кто заказывает только книги? Отличаются ли заказы какого-то конкретного покупателя, сделанные в утреннее время, от тех, которые он делает вечером? Результаты нашего анализа ложились в основу многих решений компании, например при выборе между затратами на рекламу и снижением цен на товары.
Этот анализ был полезен и для определения необходимого объема информации, которую посетитель должен предоставлять в ходе выбора покупок. Мы обнаружили, что на основе истории прошлых покупок можно с большей точностью прогнозировать вероятность покупок похожих видов продукции, а не одного конкретного продукта. Ассортиментные позиции связаны друг с другом по-разному, и просчитать эти связи можно различными способами. Судить о схожести товаров можно на основе сравнения спецификаций или анализа совпадений слов в описаниях, но самой важной информацией оказалось то, насколько часто две данные позиции просматривают или покупают вместе. Если можно было выявить тенденцию просмотра покупателями двух схожих позиций в течение одной сессии, их помечали как взаимозаменяемые. Когда покупатель рассматривал какую-то товарную позицию, ему предлагалось посмотреть на варианты ее заменителей («Какие другие товары покупают после просмотра этого?») и дополнений («С этим товаром часто покупают также»). Это делалось на основе анализа данных о прошлых запросах, просмотрах и покупках. Не менее полезными были и общие выводы о процессе принятия решений, которые можно было делать исходя из процентного соотношения просмотров и покупок конкретного товара.
Таким образом, система рекомендаций Amazon строилась на агрегированных данных просмотров и покупок. Кроме того, была создана платформа, позволяющая сторонним компаниям продавать свою продукцию на сайте с использованием складских мощностей Amazon, а это еще больше расширило область анализируемых данных. В отличие от рассылочных фирм с их «Пригородными наседками», «Селянами с дробовиками» и десятками прочих сегментов, Amazon могла прицельно обслуживать меняющиеся интересы и потребности каждого пользователя.
Само по себе сохранение информации не являлось чем-то революционным. Отличительной особенностью Amazon стало то, что компания обрабатывала информацию таким образом, чтобы помочь покупателю определиться с покупкой исходя из его же собственных интересов, вкусов и конкретной ситуации. Но излишняя персонализация может и отпугнуть потребителя. Журналист из «Нью-Йорк таймс» Чарлз Дахигг приводит отличный пример: на основе истории покупок одной молодой девушки сеть магазинов Target выслала на ее домашний адрес рекламное предложение продукции для будущих мам. Ее отец пришел в ярость, однако спустя пару дней дочь сообщила ему, что беременна. Алгоритмы Target не ошиблись.
ЕДИНСТВЕННОЕ,
НА ЧТО НЕ СПОСОБНЫ
НОВЫЕ ТЕХНОЛОГИИ, —
РЕШИТЬ, КАКОЕ БУДУЩЕЕ
МЫ ХОТИМ ДЛЯ СЕБЯ
И КАК ОТДЕЛЬНО ВЗЯТЫЕ
ЛИЧНОСТИ, И КАК
ОБЩЕСТВО В ЦЕЛОМ
Amazon изменила принципы маркетинга, начав использовать всю информацию, созданную в процессе взаимодействия пользователей с сайтом. Кроме того, у покупателей появилась возможность создавать информацию в виде отзывов о товарах. Этот эксперимент полностью перевернул традиционные представления о маркетинге с его стремлением к полному контролю над брендовыми коммуникациями. Покупатели охотно делились своим опытом и зачастую в большей степени полагались на отзывы других потребителей, чем на описания производителя или рекламу продавца. Если товар получал множество низких оценок пользователей, то положительные отзывы о нем экспертов или сотрудников уже не имели большого значения. Кроме того, публикация отзывов позволила значительно расширить представление потребителей об ассортименте «МагазинаВсего» и предоставила им возможность знакомства со всем спектром мнений. Со временем Amazon вообще отказалась от редакционного персонала и перенаправила ресурсы на разработку алгоритмов, позволяющих показывать наиболее полезные отзывы пользователей на самом видном месте страницы товара. Средства, затраченные на технологии обработки информации, помогли улучшить обслуживание покупателей в большей степени, чем затраты на отбор и рецензирование ассортимента.
Методика обработки данных в Amazon изменила поведение миллиарда покупателей. В 2015 году почти половина покупок в США начиналась с поиска и просмотра товара на Amazon, вне зависимости от того, где в конечном счете приобретался товар.
Для того чтобы управлять автомобилем, необязательно понимать все тонкости устройства двигателя внутреннего сгорания. Точно так же нет никакой необходимости досконально разбираться в алгоритмах Amazon, для того чтобы найти то, что нужно или представляет интерес. Важнее понимать базовые принципы устройства системы и установить правила ее безопасного использования. По мере того как информации создается все больше и она передается все более широкому кругу пользователей, мы можем либо занять пассивную позицию и предоставить право определять правила ее использования другим (беззаботно нажимая кнопку «соглашаюсь» после просмотра по диагонали двадцати с лишним страниц текста), либо принять активное участие в установлении новых норм взаимодействия. Можно относиться к переработке социальных данных как к таинственному «черному ящику», а можно стать информационно грамотными людьми, находящими разумные способы заставить тех, кто получает и обрабатывает наши данные, давать взамен не меньшие ценности.
Чего стоят ваши данные?
Уже сейчас при решении многих бытовых вопросов мы полагаемся на социальные данные – будь то выбор покупки на Amazon или места, где поужинать, и способа добраться до него. Социальные данные создаются в очень многих областях жизни, и постепенно мы попадаем во все большую зависимость от инфопереработчиков при принятии важнейших жизненных решений, в том числе выбора партнера для романтических отношений, места и условий работы, медикаментов и учебных заведений.
Во многих случаях истинное значение созданных нами данных становится понятным только в сравнении их с данными, созданными другими людьми. Поскольку объем социальных данных, доступных для инфопереработки, нарастает в геометрической прогрессии, сегодня можно надеяться на получение ответов на многие из вопросов, которые считались прежде не разрешимыми в принципе. Возможно даже, что это заставит задать ряд новых важных вопросов, которые раньше просто не приходили в голову.
Алгоритмы выявляют закономерности, которые люди не могут увидеть без помощи компьютеров. Эти закономерности могут помогать нам в принятии решений. Стоимость информации, предоставленной для переработки, определяется тем, насколько полезными окажутся полученные результаты для принятия нами решений – в коммерческих сделках, в приобретении товаров и услуг, в получении банковского кредита, в поиске работы, в получении медицинской помощи и образовательных услуг для себя и своих близких, а также в общественно-политической жизни.
Оценка степени полезности результатов деятельности компаний, работающих с данными, – это существенно иная постановка вопроса, нежели привычные рассуждения о том, как, когда и почему компании и государство собирают наш «цифровой выхлоп», то есть информацию, которую мы создаем изо дня в день. Некоторые считают, что объем собираемой информации слишком велик и что лучшим вариантом поведения для частного лица является поменьше рассказывать о себе или же требовать плату за создаваемые и предоставляемые личные данные. При такой сосредоточенности на входящем потоке информации мы упускаем из виду потенциальные выгоды, которые можно извлекать на выходе. Я считаю, что мы вправе требовать нечто намного более ценное, чем мелкая денежная подачка, за предоставление своих первичных данных. Мы должны настаивать на участии в управлении инфопереработкой на справедливых и понятных условиях, чтобы иметь возможность влиять на ее результаты.
Для начала давайте рассмотрим различия между первичной и переработанной информацией. Когда я ввожу в поисковую строку «Андреас Вайгенд», Google докладывает, что эти два слова обнаружены в «примерно в 122 000 результатов». Отсмотреть все эти страницы вручную невозможно: если на каждую тратить хотя бы пять секунд (феноменально высокая скорость просмотра), на это потребуется целая неделя, что совершенно нереально. Поэтому остается положиться на порядок выдачи результатов. Во главу списка Google может поставить самые свежие упоминания. Это будет прекрасно в случае, если я интересуюсь последними новостями о себе, но не так здорово, если я ищу видео семинара, который вел несколько лет назад. Другой вариант – посчитать, сколько раз мое имя упоминается на страничке, и ранжировать релевантность результатов в соответствии с наибольшим количеством таких упоминаний. Это может оказаться полезным, если я просматриваю статьи и хочу найти ту, где меня цитируют чаще, чем в остальных. Но представьте себе, что вместо своего имени я набрал в поисковой строке «айпад по дешевке» – это будет примерно 350 000 результатов, и над полезностью такой выдачи стоит задуматься. Специалисты по рекламным ловушкам наверняка поработали над страничками с популярными поисковыми запросами (что действительно так), и мне придется долго блуждать от результата к результату в поисках действительно полезной информации.
Чтобы повысить эффективность поиска, Google рассматривает полезность страницы с учетом многих характеристик, а не только наличия слов из запроса. Разработчики компании начинали с ранжирования релевантности страниц по принципу количества ссылок на них в других местах, что давало возможность судить об уровне внимания аудитории. Когда народ понял важность входящих ссылок для места странички в выдаче поисковика, появилась сфера деятельности под названием «поисковая оптимизация» с одиозными «фермами ссылок», или линкопомойками. Алгоритмы Google пришлось усовершенствовать, чтобы они могли отличать входящие ссылки реальных заинтересованных пользователей от созданных по заказу владельца сайта. Сегодня у Google помимо структуры ссылок сети есть накопленные за два десятилетия данные о том, на какие сайты, предложенные по поисковому запросу, заходили люди и сколько времени проводили на них, прежде чем вернуться к странице результатов поиска. Если на сайт заходят многие, но, лишь бегло взглянув на него, уходят искать что-то более интересное, релевантность страницы в поиске Google падает, и она опускается ниже в результатах поиска. Тем не менее высокое место странички в результатах поиска в Google не гарантирует достоверность представленной на ней информации, а является лишь свидетельством проявляемого к ней внимания.
Сколько поисковых запросов проходит через Google ежедневно? Сколько фотографий размещается в Facebook? Умение различать достоверные, недостоверные и невероятные данные – один из базовых навыков информационной грамотности. Точные цифры не столь важны: информационная грамотность означает умение видеть разницу между чем-то вполне приемлемым и явной ошибкой на порядок. В подобных оценках физики часто рассуждают с позиций порядковых величин, то есть десятикратных различий. Они скажут, что количество пользователей Google или Facebook составляет порядка миллиарда человек, поскольку оно точно больше 100 миллионов и меньше 10 миллиардов. Далее они сделают допущение о том, что типичный пользователь делает в среднем 10 поисковых запросов в день, поскольку их точно больше одного, но меньше 100. При оценке количества фотографий в Facebook они будут исходить из показателя одно фото на пользователя в день, поскольку их точно больше, чем одно в месяц и меньше 10 в день. Таким образом, мы получаем порядковые оценки ежедневного количества поисковых запросов и размещаемых фотографий – 10 миллиардов и 1 миллиард соответственно. И это только два вида операций в области социальных данных.
Осознав, что социальные данные ежедневно создаются во многих миллиардах других случаев, вы начинаете понимать, что ваши собственные первичные данные не имеют какой-то особой ценности в материальном смысле. Умилительное фото вашей собачки, которое вы запостили в Facebook, заинтересует от силы сотню человек, или 0,00001 процента пользователей сайта. Практически полезные закономерности и взаимосвязи можно выявить, только собрав и проанализировав данные нескольких миллионов человек. Отсутствие в их числе данных какого-то одного человека не повлияет на выводы, сделанные в результате переработки остального массива информации. Картина инфопереработчиков не исказится из-за пропуска данных одного человека из миллиарда.
Более того, входящая информация не всегда бывает столь же дискретной, как размещенное в Facebook фото. Отдельно взятый элемент данных похож на камушек или даже песчинку в океане – он обладает индивидуальными чертами и его трудно найти. Или же он может напоминать каплю чернил, которая растворяется в воде до состояния полной неотделимости. Информационная грамотность подразумевает также понимание того, как может быть удалена ваша информация: нужно ли для этого совершать конкретное действие, или же она сама собой растворится в общей массе данных всех пользователей. Выше я писал о том, что в Amazon просмотр товара увязывается с просмотром другого товара или покупкой. Клиент может удалить факт любой покупки из своей истории заказов, если не хочет, чтобы она там фигурировала. Но удалить факт просмотров из системы рекомендаций Amazon невозможно, поскольку они не привязаны к конкретному пользователю. В этом случае можно вновь провести параллель с нефтепереработкой: на определенном этапе становится невозможным выделить нефть, полученную на какой-то конкретной скважине.
Такое понимание соотношения количества и качества данных отчасти – но не полностью – обосновывает мою убежденность в том, что требовать плату за предоставление личной информации было бы ошибочным. Одним из главных пропагандистов идеи платного предоставления данных является концептолог Microsoft Research Джарон Ланье. Он страстно отстаивает эту точку зрения с момента публикации своей книги «Кому принадлежит будущее?» в 2013 году. Один из его любимых примеров – работа сервиса «Google-переводчик». Почему, задается вопросом автор, все доходы от рекламы получает Google, а всем тем, кто помогает совершенствовать алгоритмы компании, исправляя и дополняя варианты переводов, не достается ничего? Каждое исправление и дополнение, предлагаемое пользователями, улучшает систему переводов Google, даже если они являются повторами. Система как раз обращает особое внимание на неоднократно предлагаемые варианты.
Помощники Ланье получают компенсацию за свою работу. Весьма вероятно также и то, что они извлекают выгоду и от использования «Google-переводчик». Но в последнем случае это не деньги, а доступ к постоянно совершенствующимся информационным продуктам и сервисам.
Теперь давайте посмотрим, какая информация создается в Facebook. Автором информации, которую представляет собой фото вашей собаки, совершенно точно являетесь вы. А как быть в случае группового фото с вечеринки по случаю дня рождения? Вы сделали и разместили эту фотографию, но коммерческая ценность этого поста в Facebook определяется трафиком, который он создает, и уточнением данных о связях и интересах людей. Должны ли вы получить все средства, которые можно отнести на счет этого поста? Или вы должны разделить их со всеми, кто отмечен на этом фото? А как быть с комментариями, лайками и тэгами? Ведь они означают, что фото пробудило активность многих других людей, которая в свою очередь транслируется уже их друзьям. И эта информация о «цепочке» может быть намного более полезна с точки зрения возможностей обработки данных и извлечения из этого доходов. Ланье не обсуждает подобного рода связи, возможно, считая их недостаточно «креативным» контентом, за который стоит платить. Но такого рода цифровые следы составляют основную часть сырья инфопереработчиков, на результаты работы которых мы полагаемся в своей повседневной жизни.
Если заставить инфопереработчиков материально оценить вашу активность – все ваши поиски, просмотры, лайки и тэги во взаимосвязях со всеми, кто использует эти данные и дополняет их, можно с уверенностью предположить, что это они потребуют с вас плату за доступ к результатам поиска, рекомендациям и рейтингам. Разработка алгоритмов стоит денег, и подобный аналитический срез потребует создания специального инструментария для атрибуции и оценки каждого элемента данных, причем с учетом изменения его стоимости во времени.
Предложенная Ланье «микроплата» за предоставление данных – безнадежное мероприятие не только в силу сложности и затратности решения проблемы атрибуции. Для начала давайте просто посмотрим на порядок цифр. Если бы Facebook решила поделиться всей своей прибылью за 2015 год, составившей 3,5 миллиарда долларов, со своими пользователями (не выплачивая дивиденды акционерам), каждый из них получил бы примерно по 3 доллара 50 центов. Что для вас более важно – постоянно иметь в своем распоряжении платформу с неограниченными коммуникационными возможностями или одна лишняя чашка капучино в год? Если первое, то за ваши данные вам уже «заплатили».
Разбираемся дальше. Во многих случаях вам надо предоставить данные, чтобы получить услугу, например информацию о своем местоположении для приложения Uber. Решив, что впредь вы отказываетесь делиться своей информацией бесплатно, вы тем самым лишите себя возможности пользоваться бесплатными продуктами и услугами многих информационно-технологических компаний. Наконец, многие из продуктов этих компаний – от товарных рекомендаций до прогноза спроса на услуги такси – основаны исключительно на обработке первичных данных пользователей. И хотя конкретно ваши данные могут не иметь какого-то особого значения для конечного результата, сама просьба к потребителям продуктов и услуг предоставлять свою информацию является вполне уместной.
По этим причинам я полагаю, что, вместо того, чтобы настаивать на плате за свои первичные данные, следует потребовать предоставления более жесткого контроля над тем, как, когда и почему распространяется ваша информация, для чего она используется и что вы получаете в результате. Наиболее успешные инфопереработчики разъясняют, каким образом предоставляемые вами данные способствуют совершенствованию предлагаемых ими информационных продуктов. В обществе слишком много обсуждают ограничения, которые следует наложить на использование первичных данных организациями, но практически игнорируют вопрос о том, что инфопереработчики должны предлагать в качестве инструментов повышения прозрачности и расширения свободы выбора.
Переработка данных не превращает человека в товар в виде набора цифр, во всяком случае, это далеко не обязательно. Главное, что может почерпнуть из этой книги читатель, – это вывод о пользе обработки социальных данных для его собственных решений, а не только для рекламной кампании какой-нибудь мегакорпорации. Я считаю, что человека в равной степени определяют и создаваемая им информация, и принимаемые им решения. И ценность ваших данных для вас состоит именно в этом.
Исследование и использование
Процесс переработки данных подразумевает также компромисс между исследованием и использованием. Хочу перенести вас к рядам игральных автоматов в залитом неоновыми огнями Лас-Вегасе. В области искусственного интеллекта (то есть компьютерных программ, способных самообучаться на основе входящей информации) задача об «одноруком бандите» является в каком-то смысле коронной, примером дилеммы между поиском новых вариантов или использованием лучшего из известных. Предположим, вы зашли в казино и узнали, что кто-то вроде бы выиграл целое состояние на одном из автоматов. Как вы поступите? Проведете остаток вечера у этого прославившегося автомата или же будете исследовать остальные в поисках еще более высоких шансов на джекпот? Разумеется, сбор данных о результативности всех автоматов потребует времени. Поскольку казино создаются ради прибыли, игры настроены так, чтобы клиенты в целом оставались в проигрыше. И в идеале, как учат теоретики вычислительных систем, вам придется в течение какого-то времени понаблюдать за работой автоматов, чтобы постараться обнаружить закономерность. И хотя статистик сможет порекомендовать, сколько времени нужно потратить на наблюдение за каждым из этих шумных устройств, у вас все равно останется выбор – или исследовать новые варианты, или использовать тот, который уже доказал свою результативность. Может показаться, что пример об «одноруком бандите» имеет мало общего с конечной продукцией инфопереработки, однако в списке рекомендаций для пользователей в качестве ключевой задачи значится как раз поддержание баланса между исследованием и использованием. Из этих соображений пользователь выбирает наиболее подходящую ему рекомендацию. И здесь аналогия с нефтью снова придется кстати. Геологи-нефтяники и инженеры оценивают альтернативу: стоит ли и дальше вкладывать значительные средства до полной выработки существующего месторождения или же переключиться на поиски новых, где добыча может обходиться не так дорого. Инфопереработчикам также приходится решать проблемы лучшего применения ресурсов для максимизации эффективности входящих и исходящих потоков данных. В том, что касается информации, главным параметром, который надлежит контролировать, является время пользователей.
Когда поисковик вроде Google выдает ответ на ваш запрос, перечень сайтов представляет не десятки одинаковых позиций, а предлагает различные варианты в рамках определенной степени релевантности предмету поиска. Иногда бывает понятно, что вам нужна информация о чем-то совершенно конкретном, например в случае, когда вы вводите в строку поиска словосочетание «Panthera onca». Но если вы введете в качестве предмета поиска просто «ягуар», то компьютер покажет вам не только то, что относится к представителю кошачьих, автомобилю или старой операционной системе компьютеров Mac. Алгоритмы поисковой системы создают кластеры значений слова «ягуар» на основе количества слов на странице, связей между страницами и перемещениями пользователей между страницами и предлагают для изучения выборки из каждого такого кластера, чтобы обеспечить большую вероятность успеха вашего поиска.
Разновидностью задачи об «одноруком бандите» является задача «оптимального момента остановки», или «взыскательного ухажера». Впервые ее описал Мартин Гарднер в своей колонке «Математические игры» в журнале Scientific American. В его варианте на листках бумаги пишутся любые числа, «от мельчайших долей единицы до астрономически больших, вроде единицы со ста нулями». Листочки перетасовываются, а затем перебираются один за другим до тех пор, пока вы не останавливаетесь на том, где, как вы считаете, значится самое большое число. Со временем листочки бумаги в мысленном эксперименте превратились в ухажеров, идущих на свидание. Вы приходите на свидание, и вам надо решить: будете ли вы встречаться с остальными девушками или прекратите поиск, потому что это та самая? В реальной жизни выбор между исследованием и использованием может иметь критически важное значение.
Понятно, что пользователи приложений или сайтов знакомств решают задачу «взыскательного ухажера» в постоянном режиме. Самые первые сайты знакомств позволяли пользователям уточнять свои предпочтения по весу, росту или географическому положению потенциального партнера и соответственно этому ранжировали результаты поиска. Некий пользователь решил кликнуть фото потенциальной партнерши, которую мы назовем Сэм. Сайт не знал, что именно заставило его кликнуть фото Сэм. Может быть, то, что она была первой в списке? А может быть, то, что она брюнетка и носит очки? А может быть, это произошло потому, что она сфотографирована на фоне океана, а этого пользователя интересуют жительницы побережья или те, кто приезжает туда отдыхать? Пользователя могло заинтересовать все, что угодно, но ему все равно нужно было решать – послать Сэм сообщение или продолжать разглядывать фото. В отличие от традиционной свахи, которая всеми силами стремится найти идеальную пару для каждого клиента, сайт знакомств предоставляет пользователю самому решать, хочет ли он увеличить число рекомендаций от сайта, видеть в подборке вариантов нечто схожее с предыдущими или нечто совершенно другое.
В основном инфопереработчики решают вопрос баланса между исследованием и использованием исходя из того, насколько подробно пользователь изучает рекомендации и возвращается ли он к ним, если возвращается вообще. Однако оптимальная настройка часто зависит от предпочтений пользователя в данный конкретный момент. Взыскательный ухажер может искать как вечный идеал, так и партнера на ближайший вечер, и инфопереработчику трудно определить характер конкретного поиска.
Принцип прозрачности подразумевает, что пользователи понимают, как обрабатываются их данные; свобода выбора диктует право пользователей на определенное влияние на этот процесс.
Стартап музыкальных рекомендаций MoodLogic, сооснователем которого я являлся, предлагал своему пользователю определенную степень контроля над сочетанием использования и исследований, то есть между музыкой, которую он обычно слушает, и знакомством с чем-то новым. Мы анализировали коллекцию музыки в компьютере пользователя и создавали некую модель, позволяющую определить произведения, исполнителей, авторов, инструментальные составы, темпы и жанры, которые ему подойдут. Модель прогнозировала, насколько новое произведение может понравиться пользователю. Затем мы предлагали ему выбор из двух настроек. При выборе «безрискового» варианта система выдавала музыку примерно одного стиля, которая должна была, по нашему прогнозу, понравиться пользователю. «Зондирующая» настройка предлагала послушать музыку, которую, как мы считали, пользователь мог бы или полюбить, или возненавидеть. Выбор оставался за ним, но при этом аккумулировалась информация, которую мы могли использовать для совершенствования алгоритмов MoodLogic.
Хотя количество информации безгранично, этого нельзя сказать о времени. Решения приходится принимать. Феномен социальных данных в том, что результаты процесса их переработки могут становиться новым входящим потоком.
Работа над ошибками
Людям нравится считать свои решения обоснованными. Возможность перечислить все «за» и «против» («Стоит ли принять предложение работы в другом городе или согласиться с конкурентным предложением моего нынешнего работодателя?»), сравнить варианты и выбрать то, что лучше соответствует ситуации, текущим целям и кажется наименее рискованным, придает уверенности. В прошлом люди собирали информацию, разговаривая с родными, друзьями, коллегами и наставниками. Они принимали решения в мире «небольших данных».
Сегодня можно обратиться к рейтингам удовлетворенности работой портала Glassdoor, где на условиях анонимности оценивают условия и оплату труда. Там собраны отзывы сотрудников о более чем 400 000 компаний и ежегодно поступает более полумиллиона новых комментариев. Например, по компании Amazon собрано 8000 отзывов о работе, 8000 – о собеседованиях при приеме на работу и 14 000 – о зарплате. Человек, рассматривающий возможность работы в компании, получает доступ к значительно большему количеству информации о ней, чем когда-либо прежде, однако времени на то, чтобы ознакомиться со всеми 8000 отзывов и сравнить их с условиями своего нынешнего места работы, у него нет. Какие из этих отзывов достоверны, какие соответствуют рассматриваемой позиции? А если кто-то неверно понял вопрос или случайно кликнул более низкую оценку, чем хотел?
Ошибки свойственны любой информации. Во времена небольших данных люди, собиравшие информацию, считали своим долгом досконально разобраться в ней и лично вычистить и исправить ошибки. И это было очень хорошо, поскольку от информации, полученной от небольшого количества людей, иногда зависели решения, затрагивающие всю общину или даже целый штат. Ошибка в количестве заявок на пособие по безработице, полученных за неделю в каком-то штате (например, опечатка вроде «254» вместо «2541»), могла привести к искажению данных по безработице, которые в свою очередь влияют на государственную экономическую политику. Долгосрочное исследование тенденций занятости, которое проводит Статистическое управление министерства труда США, охватывает выборку примерно в 10 000 человек, то есть основывается на порядке цифр, сопоставимых с количеством отзывов сотрудников Amazon на Glassdoor.
Разумно предположить, что доля ошибочной информации не снижается пропорционально росту количества собранных данных. Если в наши дни мы имеем доступ к объему информации, в сто раз превышающему прежний, можно ожидать, что и количество ошибок в этом потоке увеличится в сто раз. Но теперь у нас нет возможности отслеживать и вычищать каждую ошибку в массиве информации.
Однако решение проблемы экспоненциального роста количества ошибочной информации содержится в самом факте экспоненциального роста объемов данных. Поскольку люди постоянно реагируют на продукцию инфопереработки созданием новых данных, алгоритмы могут учиться выявлять то, что может являться ошибкой ввода. Если в строке поиска ввести «Андреас Вайганд», Google поинтересуется, не имелся ли в виду «Андреас Вайгенд».
Объединяя данные из многих источников, инфопереработка может выявлять наши ошибки во входящей информации. В июле 2012 года в моем смартфоне появился сервис под названием Google Now. Он сканировал мою электронную почту в поисках информации из моих электронных авиабилетов и сообщал о статусе рейсов, делая это даже раньше авиакомпаний. Казалось бы, все просто. Но этому сервису все же удалось удивить меня степенью продвинутости анализа данных. Как-то утром, когда я только собирался паковать свои чемоданы перед отъездом из Фрайбурга, приложение сообщило, что я должен выезжать в аэропорт немедленно. По моему графику до рейса оставалось еще несколько часов, а авиакомпании обычно не сдвигают регулярные перелеты вперед больше чем на пару минут. Тем не менее я доверял Google Now больше, чем своему календарю, и решил пошевеливаться – возможно, сервис узнал об огромной пробке на дороге. Приехав в аэропорт, я понял, что неправильно ввел время рейса в календарь. Google Now проигнорировал данные, введенные вручную, и послал мне напоминание исходя из информации в моем электронном билете в Gmail. (А спустя три года Google Now автоматически вносит расписание рейсов в мой календарь сразу же после того, как электронные билеты попадают в мою почту.)
Мы уже свыклись с тем, что инфопереработчики указывают нам на подобные ошибки и исправляют их. Это полезные услуги. Вопрос в том, будем ли мы готовы принимать схожие корректировки в других областях своей жизни по мере того, как создаем и распространяем все больше личной информации.
Инфопереработке приходится также разбираться и в том, что является сигналом, а что шумом. На статистическом жаргоне сигналом называется значимая информация, а шумом – случайная и потому не имеющая значения. Сложность социальных данных в том, что различия между сигналом и шумом варьируются в зависимости от конкретного пользователя и конкретной ситуации. Когда ваш френд из Facebook ставит тэг на фото, где вы отсутствуете, что это – сигнал или шум? Когда как. Если он поставил тэг по ошибке, перепутав вас с Эндрю, который идет следующим в списке его друзей, то это шум, то есть статистический эквивалент статическим помехам в вашем радиоприемнике. А если он поставил тэг сознательно, желая ввести в курс запечатленных событий вас и ваших френдов, то это сигнал, хотя, возможно, и раздражающий. То есть, на языке статистиков, это не шум.
Обратная связь от пользователей играет важнейшую роль в совершенствовании алгоритмов обработки информации. Я не имею в виду необходимость заполнения опросников для потребителей или участия в фокус-группах. Поддержание и развитие постоянного диалога с пользователями позволяет инфообработчикам совершенствовать свои продукты и услуги и делать их более персонифицированными. Каждый сделанный вами выбор позволяет скорректировать иерархию вариантов. Но и вы сами тоже учитесь изменять формулировки своих поисковых запросов так, чтобы результаты в большей степени соответствовали ожиданиям. Не просто избегать опечаток, а правильно акцентировать свой интерес к различным аспектам темы или товарным категориям.
Тем не менее ваше взаимодействие с сайтом или приложением ограничивается предлагаемым набором опций. Я полагаю, что уточнение поисковых запросов стало бы намного более динамичным процессом, если бы пользователи имели возможность поиграть с вариантами инфопереработки примерно так же, как мы с коллегами делали это в музыкальных рекомендациях MoodLogic. По мере возрастания количества отзывов работников на Glassdoor порталу стоило бы придумать способы уточнения этой информации, чтобы сделать ее еще более полезной. Это может быть некая модель, позволяющая выделить наиболее интересные данному пользователю оценки не только по признакам названия позиции или ее географического положения, но и по другим характеристикам, которые предоставляют сайту (например, карьерные цели или предпочтения по условиям труда). Но вне зависимости от количества входящей информации оценки все равно будут содержать элемент неопределенности.
Информационная грамотность означает понимание того, что любая рекомендация представляет собой величину вероятности и что любое решение есть компромисс между уровнем риска и размером извлекаемой выгоды, причем даже в тех случаях, когда на фоне больших объемов данных неопределенность кажется весьма незначительной. Инфопереработка не должна принимать решения за вас. Она должна предоставить вам возможность использовать намного большее количество информации, что позволит частично устранить риск ошибки.
С помощью инфопереработки мы получаем возможность использовать и анализировать обширные исторические данные, выявлять закономерности и делать прогнозы трендов, не все из которых оказываются правильными. Подобный подход к осмыслению информации и самих себя сильно отличается от привычного для подавляющего большинства людей.
Превращение информации в решения
Факты! Факты! Факты! – нетерпеливо восклицал Холмс. – Я не могу лепить кирпичи без глины.
Артур Конан Дойль
Когда в начале 1990-х годов я окончил докторантуру и стажировался в научно-исследовательском центре Xerox PARC в Пало Альто, мы с помощью суперкомпьютера анализировали закономерности дорожного движения. Одной из наших задач было прогнозирование времени в пути. Будучи физиками, мы рассматривали дорожное движение как поток и пытались определить условия его перехода из ламинарного состояния в турбулентное, то есть когда плавное движение превращается в прерывистое. По современным меркам, исходных данных было немного, и для создания моделей дорожного движения нам приходилось делать множество допущений.
Сейчас проблема расчетного времени прибытия в пункт назначения решается просто: практически в каждой машине есть кто-то с мобильным телефоном, оценивающим движение в режиме реального времени. В этой области работает, в частности, выделившаяся из Microsoft компания Inrix. В ней анализируют данные геолокации более чем 100 миллионов личных телефонов, чтобы определить направления движения автомобилей (и, что еще более важно, места, куда они не едут) и вывести тренды перемещения людей и товаров. Данные для своего анализа Inrix получает от операторов мобильной связи, с базовыми станциями которых связываются эти 100 миллионов мобильников. Обработанную информацию у Inrix покупают Garmin, MapQuest, Ford, BMW и другие компании, которые хотят предоставлять водителям услуги картографического отображения местности и планирования маршрута. Кроме того, Inrix консультирует местные власти по вопросам городского планирования, в том числе строительству новых мостов, установке светофоров и местоположению новых государственных больниц и других учреждений.
Работа Inrix с данными о дорожном движении – наглядный пример того, насколько агрегированные показатели множества устройств могут быть полезнее для принятия решений, чем первичные данные одного-единственного человека. Упреждающие системы, действующие на основе анализа социальных данных, будут консультировать нас по вопросам персональных проблем, финансов, рабочих ситуаций, медицинского обслуживания и во многих других областях, а возможно, и стимулировать к принятию определенных решений.
Кроме того, на этом примере особенно хорошо заметна ключевая роль интерпретации в процессе обработки данных. Обработанные данные могут представляться в трех видах: как описание, прогноз или инструкция. Описание характеризует нечто уже состоявшееся. Прогноз экстраполирует прошлое и настоящее на будущее в предположении, что система не будет подвергаться воздействиям или манипуляциям, способным повлиять на результат. Инструкция рекомендует, как действовать для получения желаемого результата исходя из анализа прошлых событий.
ИНФОРМАЦИЯ
НЕ ДОЛЖНА
РУКОВОДИТЬ НАМИ.
ОНА ДОЛЖНА
РАСШИРЯТЬ СПЕКТР
НАШИХ ВОЗМОЖНОСТЕЙ
В описательной статистике данные обобщаются, например, в виде кластеров однородных элементов информации. Такие данные могут формировать условия для принятия решений в виде набора критериев для сравнительной оценки конкретной ситуации. Если вам нужно узнать, как в данный момент обстоят дела с пробками на Манхэттене, вы можете посмотреть по данным геолокации с мобильных телефонов, насколько быстро движутся и где встают потоки автомобилей. Но даже в таком относительно простом вопросе присутствует элемент интерпретации. Скорее всего, вы увидите данные о большом скоплении автомобилей в районе небоскреба MetLife. Но, может быть, это следствие того, что MetLife находится рядом с вокзалом Гранд Сентрал, где всегда полно такси, ожидающих пассажиров, и самих пассажиров, садящихся в такси, и поэтому мобильные телефоны показывают как бы «остановившееся» движение? Если вам нужно узнать, насколько хорошо идет предрождественская торговля в вашем магазине в этом году, вам нужно не только подытожить продажи, но и найти подходящую базу для сравнения. Сопоставление с вашими же данными за аналогичный период прошлого года не будет полностью корректным, поскольку в таком случае не будут учтены изменения, случившиеся в местной экономике. Вместо этого вы можете сравнить результаты своего магазина с результатами похожих магазинов по соседству.
Когда я работал в Amazon, мы исследовали динамику промежутков времени между просмотром товара и его покупкой. Некоторые статистические значения были явно ошибочными – они были отрицательными, а человек физически не может купить товар прежде, чем просмотрит его. Мы не знали, почему происходит такая ошибка, и просто не стали учитывать такие данные. При этом у нас накопилась масса данных, указывающих на то, что многие пользователи выжидают по восемь часов, прежде чем совершить покупку. Очень странно. И только потом мы сообразили, что, поскольку часть компьютеров Amazon настроена в тихоокеанском часовом поясе США, а часть – по Гринвичу, эта разница отражает различие во временных поясах применительно к кликам. Как часто случается, то, что сначала казалось шагом к интересным новым представлениям, в итоге объяснилось обычной ошибкой.
Интерпретация данных – итеративный процесс. Вот один из примеров этого. Одна авиакомпания решила провести целевую рекламную кампанию для потенциальных пассажиров бизнес-класса и поручила группе специалистов по работе с данными выявить владельцев смартфонов, регулярно прибывающих и убывающих через нью-йоркский аэропорт имени Дж. Ф. Кеннеди. Проблема состояла в том, что людьми, регулярно посещающими любой аэропорт, являются вовсе не бизнесмены, а сотрудники авиакомпаний и самого аэропорта. Аналитики убедились в этом по данным с телефонов, показывающим закономерности перемещений их владельцев. Часть постоянных посетителей ежедневно приезжала и уезжала по четкому сменному графику – это были работники аэропорта. Труднее оказалось выделить экипажи самолетов, базирующихся в Нью-Йорке, но и их удалось более или менее точно вычислить по сайтам и приложениям, которыми они пользовались через wi-fi аэропорта: поиск отеля или авторизация в Uber для заказа машины для них были редкостью, а вот в приложения для знакомств они заходили очень часто.
Второй путь осмысления обработанной информации – прогнозный анализ, в котором данные используются для общих выводов относительно будущего, в том числе возможных вариантов поведения и развития событий. Например, градостроители использовали архивные данные о поминутном состоянии дорожного движения, которые собирала компания Inrix, для оценки возможного влияния различных событий (дорожной аварии, нового строительства или массового мероприятия) и подготовки более точных планов действий в особых ситуациях. Хедж-фонды пользовались данными Inrix о транспортных потоках к торговым центрам и пригородным гипермаркетам при принятии решений о покупке или продаже акций задолго до публикации квартальной отчетности этих предприятий. Анализ данных геолокации, собранных в «черную пятницу» 2012 года, позволил точно предсказать резкий скачок продаж на весь предрождественский период.
Amazon также использует прогнозные модели для принятия деловых решений: например, сколько дополнительного персонала нужно будет нанять на склады и в доставку, чтобы справиться с возрастающим объемом заказов в период рождественских праздников. Это типичная задача из теории принятия решений: как сравнить потери от несвоевременности доставки заказов покупателям с потерями от избыточности мощностей службы доставки? В Amazon нагрузку на транспортные мощности анализируют с очень высокой степенью детализации, ежедневно и в разрезе каждого города. В 2013 году прогнозы компании не оправдались, так же как и прогнозы многих розничных сетей и компаний дистанционной торговли. Многие посылки пришли уже после Рождества, и покупатели были в ярости. После анализа причин Amazon пересмотрела свою модель с целью обеспечения более высокой точности прогнозирования и гибкости в распределении ресурсов. В результате компания смогла предложить своим клиентам гарантированную бесплатную доставку к 24 декабря 2014 года для покупок, совершенных на два дня позже, чем в предыдущие годы.
Поскольку многие из инфопереработчиков занимаются составлением списков рекомендованных покупок, следует помнить о том, что представленные рейтинги могут быть подготовлены без учета ваших интересов. Одной из первых инициатив в области больших данных была система бронирования авиабилетов Sabre Global Distribution System. Введенная в эксплуатацию в 1960 году изначально Sabre представляла собой систему для обслуживания авиакомпании American Airlines, которая вложила в ее разработку огромные деньги. В 1976 году систему Sabre начали устанавливать в офисах турагентов, а потому в нее встроили возможность приобретения билетов на рейсы других авиакомпаний. Проанализировав закономерности процесса бронирования, в American Airlines обнаружили, что турагенты обычно выбирают рейсы, которые сразу появляются на экране системы, и в очень редких случаях обращают внимание на то, что находится за пределами первой страницы выдачи результатов поиска. Авиакомпания немного повозилась с настройкой алгоритма таким образом, чтобы ее рейсы всегда оказывались первыми в списке. Потребители не знали, что представленные им «лучшие» варианты подобраны с таким искажением. А с учетом того, что турагенты работают на комиссии, им было не слишком интересно искать для своих клиентов варианты дешевле. Тем не менее две из конкурирующих с American Airlines авиакомпаний, New York Air и Continental, обнаружили, что их рейсы оказываются в самом низу списка, даже несмотря на открытие новых направлений и предложение скидок на билеты – что, по идее, должно было ставить их варианты на самый верх в выдаче результатов. Потребовалось расследование конгресса. В 1984 году такого рода искажения настроек были официально запрещены.
Совершать подобные манипуляции становится намного труднее, когда пользователем обработанной информации является конечный потребитель, который с большей вероятностью обратит внимание на то, насколько предложения соответствуют его пожеланиям. Я участвовал в разработке системы рекомендаций для бангкокского сайта бронирования отелей Agoda. На первый взгляд могло показаться, что компании выгоднее ранжировать отели исходя из величины получаемой от рейтинга прибыли. Если отель готов платить Agoda более высокие комиссионные, то почему бы не поместить его на самый верх списка? Или все-таки рейтинг должен составляться на основе предпочтений туристов? Кто-то из клиентов, ориентируясь на рейтинг, составленный с учетом интересов Agoda, бронировал номер, но впоследствии сожалел об этом. Другие смотрели на начало списка, приходили к выводу о том, что у Agoda нет вариантов, соответствующих их вкусам, и уходили к конкурентам. В долгосрочной перспективе более оптимальным для Agoda решением было увязывать свои интересы с интересами клиентов.
Последний уровень работы с данными – предписывающая или инструктивная аналитика, которая на основе вашей информации подсказывает, каким образом следует изменить условия для достижения желаемого результата. Классический пример – анализ данных, примененный в ходе лунной экспедиции НАСА. Для того чтобы доставить на поверхность Луны Нила Армстронга и американский флаг, НАСА приходилось непрерывно анализировать поток данных о положении лунного модуля в пространстве. Инженерам в центре управления нужно было не только обобщить данные (описание) и не только спрогнозировать, где и когда лунный модуль коснется поверхности (прогноз). Чтобы человек действительно попал на Луну, им нужно было определять предпочтительные действия в связи с постоянно изменяющимся положением модуля. Они оценивали, какое влияние оказывает каждое включение любого из реактивных двигателей модуля на траекторию его движения. После этого они прогнозировали, когда и как надолго следует включить его опять для успешного выполнения задачи.
Информационная грамотность подразумевает понимание того, что допущения – свойственная описаниям неопределенность – это неотъемлемый элемент прогноза, а для инструкций обязательно нужна обратная связь. Стоит ли инфообработчикам помещать вас в какой-либо маркетинговый сегмент на основе истории ваших поисковых запросов в Google? Можно ли объективно судить о кандидате на должность исключительно на основе анализа данных о его контактах в LinkedIn? Насколько обоснованными будут индивидуальные рекомендации по физическим нагрузкам, в основу которых положен анализ информации из Facebook о посещении этим человеком ресторанов?
Эксперименты, эксперименты, эксперименты
Инфопереработчики не только описывают, прогнозируют и инструктируют – они еще и экспериментируют. Вполне возможно, что над вами экспериментируют каждый раз, когда вы покупаете бестселлеры в Amazon, подбираете себе мокасины в Zappos или ищете пару на Match.com. Эксперименты нужны, чтобы совершенствовать продукты и услуги инфопереработки при помощи так называемого А/В-тестирования.
В науке причинно-следственная связь устанавливается экспериментальным путем: реакция на изменение одной независимой переменной в экспериментальной группе сравнивается с реакцией контрольной группы, для которой эта переменная остается неизменной. А/В-эксперименты, как правило, начинаются с вопроса. Например: «Какими зонтиками, красными или синими, мне нужно торговать, чтобы максимизировать их продажи?» Этот вопрос кажется очень простым, но из него вытекает масса сложностей в проведении удачного А/В-эксперимента. Продавец зонтиков может попытаться найти правильное решение, поставив свой прилавок на некой точке и продавая только синие зонтики в первый день и только красные – на второй. Он может даже проводить этот эксперимент два понедельника подряд, когда работающие в этом районе вроде бы должны быть более склонны забывать зонтики в суматохе перед выходом из дому. Но, определяя место для торговой точки и день недели для эксперимента, он не принимает в расчет одну из самых важных переменных, определяющих потребность в любом зонтике, красном или синем, а именно – идет ли дождь.
Инфопереработчикам приходится учитывать намного больше переменных, чем нашему торговцу зонтиками. В Amazon все, что касается внешнего вида страниц, от размера строки поиска до места размещения диалогового окна, от опций оформления и оплаты до части описания товара, доступной без второго клика, решается после проведения А/В-экспериментов. Широко известна история про то, как Google проводила А/В-эксперименты для определения оттенка синего цвета для рекламных ссылок. Источники в Google утверждают, что в результате выбора одного из пятидесяти возможных вариантов ежегодная выручка от рекламы возросла на 200 миллионов долларов.
Описательный анализ дает возможность выявлять «естественные эксперименты» – ситуации, когда можно проследить последствия изменения некоего условия, произошедшего случайно или по ошибке (например, когда при внедрении программного обеспечения обнаруживается баг). Веб-разработчики французского сайта Amazon каким-то образом умудрились забыть добавить услугу доставки в стоимость оформления заказа. Резкий рост заказов, последовавший в результате этой ошибки, дал Amazon представление о том, насколько бесплатная доставка способствует увеличению продаж.
В основе научного метода лежит прогноз: ученый создает предполагающую нечто модель, проводит эксперименты и выясняет, насколько их результаты соответствуют предположению. Если они не соответствуют, ученый вносит изменения в модель и повторяет процесс тестирования.
В области социальных данных меня больше всего интересуют эксперименты с элементами прескрипции, в которых пользователь получает возможность изменить некий параметр и увидеть, как это повлияет на результаты. Обработка данных о пробке на дороге позволяет предупредить водителей, сообщить им о том, насколько увеличится время в пути, и предложить альтернативные варианты маршрута. Если большинство водителей изберет какой-то один альтернативный маршрут, то на нем может возникнуть еще одна дорожная пробка. Для подобных ситуаций может быть предложен набор различных вариантов объезда и информация о том, какая часть водителей уже выбрала определенный маршрут, чтобы позволить принять решение поехать другой дорогой. Эти же данные можно использовать и для того, чтобы в целях оптимизации транспортного потока изменить частоту смены сигналов светофоров.
Один из лучших умов в области А/В-экспериментов – мой бывший коллега Рон Кохави, покинувший Amazon в 2005 году, чтобы возглавить работу по созданию экспериментально-аналитической группы в Microsoft. Чтобы создать базовые практики удачного онлайн-экспериментирования, Ронни и его команда провели сотни экспериментов примерно на двадцати интернет-сайтах (в том числе на MSN.com и Bing). Исходя из своего опыта Ронни утверждает: «Получить цифры легко; получить цифры, заслуживающие доверия, – трудно». Я полностью с этим согласен. Более того, то же самое можно сказать и о наиболее фундаментальных аспектах обработки данных: создавать рекомендации просто, оценивать рекомендации – трудно.
При проведении А/В-экспериментов на интернет-сайтах очень многое может пойти не так. Для начала: от 15 до 30 процентов просмотров страниц некоторых сайтов приходится на долю поисковых роботов, и эти визиты надо идентифицировать и отделить от посещений людей (если, конечно, обработку данных не проводят с целью оптимизации роботов).
Существует также искушение разделять пользователей на экспериментальные и контрольные группы по каким-то признакам, а не произвольно. Однако, каким бы разумным это ни выглядело на первый взгляд, большинство неслучайных способов выборки искажают результаты экспериментов и загрязняют аналитику. Например, если пользователь часто удаляет со своего компьютера cookie-файлы, его могут отнести к одной группе во время первого визита на сайт и к другой во время следующего. В некоторых экспериментах отнесение к той или иной группе коррелирует с сайтом, на котором был пользователь, прежде чем попасть на экспериментальную или контрольную страницу. Действительно ли люди более склонны кликать рекламу зонтиков на сайте WeatherChannel, где постоянно предупреждают о грядущих ураганах? Если выборки делались не по принципу случайности, результаты окажутся искаженными.
Кроме того, ученые стараются учитывать переменные, которые могут влиять на поведение пользователя, но не включены в эксперимент. Результаты эксперимента могут быть искажены багом, который появился в версии программного обеспечения, предложенной одной группе, но отсутствует во всех остальных. Проблемой могут быть и особенности работы программного обеспечения на различных платформах. Люди, использующие для доступа в сеть айфоны, и люди, использующие для этого телефоны на Андроиде, не являются равномерно распределенными и не зависимыми друг от друга группами населения. По результатам эксперимента может казаться, что на сайт чаще заходят пользователи с айфонами, но на самом деле различались не клиентские базы, а программное обеспечение – частота обновления страниц по умолчанию в айфонах выше. Придумывать такого рода версии и расследовать их – ежедневная работа детективов мира данных.
Компании экспериментировали на потребителе, предлагая новые товары или упаковки, задолго до появления интернета. Новизна состоит в возможности экспериментировать в режиме реального времени и моментально получать обратную связь, которая может быть использована для совершенствования продуктов и услуг, в том числе информационных. В прошлом цикл «идея – результат» измерялся месяцами. Теперь же, в мире с выходом в интернет, его продолжительность сократилась до минут. Это в корне отличается от временных параметров медицинских исследований, где эффекты от изменения рецептуры лекарства могут проявляться через недели, месяцы, годы, а то и десятилетия.
По мере дальнейшей интеграции социальных данных в процессы решения проблем и принятия решений обычными людьми инфопереработка будет создавать продукты и услуги в таких важнейших областях человеческой жизни, как здравоохранение и образование. Нам как обществу нужно будет решать, какие эксперименты с социальными данными желательны и каким результатам мы можем доверять. Когда достаточно данных, собранных за час или за день, а когда лучше проводить эксперимент в течение более длительного периода? Например, в области образования очевидных ответов на этот вопрос нет. Для того чтобы результаты А/В-эксперимента способствовали совершенствованию процесса преподавания, необходимо прежде всего сформулировать задачи, ради которых проводится сбор и анализ данных. Как я уже говорил, давать рекомендации просто, а оценивать их – трудно.
Этот процесс не должен отпугивать. Эксперименты с социальными данными пошли на пользу всем: нам стали доступны услуги и продукты, которые еще два десятка лет назад было трудно себе представить. Сегодня они уже считаются едва ли не такими же предметами первой необходимости, как водопровод и электричество. Инноваций в использовании социальных данных будет еще больше, их сдерживают лишь рамки бюджетов, социальных шаблонов и творческих способностей. Чтобы обратить результаты деятельности по обработке больших социальных данных на пользу себе, следует принять факт того, что над нами экспериментируют, и доходчиво убедить аналитиков в том, что эти эксперименты должны помогать нашим решениям. Мы не должны оставаться в неведении.
Поэтому, прежде чем перейти к вопросу о новых правилах работы с данными, которые я считаю необходимыми для регулирования деятельности инфопереработчиков, нам следует поближе познакомиться с тремя категориями социальных данных – нашими кликами, нашими контактами и нашим контекстом. Нам предстоит убедиться в том, что использование этих источников первичной информации противоречит многим существующим социальным нормам, в том числе и глубоко личного и эмоционального характера. Как идентифицируется личность? До какой степени иллюзорны представления о приватности? Что означает понятие «друг»? Как наше окружение влияет на нас, а мы на него? Возможно, для вас станет сюрпризом, что ответы на эти вопросы содержатся в истории ваших поисков в Google, вашем взаимодействии в Facebook и в сенсорных датчиках вашего мобильного телефона.