Глава 3. Данные – это новая нефть
Хэл Вариан, ведущий экономист Google, в обращении к Роберту Гойцуэте из Coca-Cola сказал в 2013 году: «Миллиард лет назад появился современный “человек разумный”. Миллиард минут назад зародилось христианство. Миллиард секунд назад выпустили IBM PC. А миллиард поисковых запросов назад… наступило сегодняшнее утро». И Google – не единственная компания с неохватным объемом данных. Для всех, от гигантов вроде Facebook и Microsoft до местных государственных органов и стартапов, сбор данных стал проще и дешевле, чем когда-либо. Эти данные обладают ценностью. Миллиарды поисковых запросов – это миллиарды строк данных, с которыми Google совершенствует свои службы. Данные даже называют «новой нефтью».
Прогностические машины полагаются на данные. Чем их больше и чем они лучше, тем качественнее прогнозы. Выражаясь языком экономистов, данные остаются ключевым компонентом прогнозирования, их ценность растет с удешевлением прогнозов.
В ИИ данные представлены в трех ипостасях. Первая – входные данные, которые загружаются в алгоритмы и используются для прогнозирования. Вторая – обучающие данные, необходимые для создания самих алгоритмов; с их помощью ИИ учится прогнозировать в реальной среде. И наконец, существуют также данные обратной связи, призванные постепенно улучшить эффективность алгоритмов. В некоторых случаях виды данных пересекаются, например одна и та же информация выполняет все три роли.
Но сбор данных может стоить дорого, следовательно, объем капиталовложений рассчитывается исходя из компромисса между выгодой от получения дополнительных данных и затратами на них. Чтобы принять оптимальное решение по инвестированию средств в данные, необходимо понимать, как машины их используют.
Для прогностики необходимы данные
До недавнего ажиотажа вокруг ИИ возникало много шумихи по поводу большого объема данных. Их разнообразие, количество и качество заметно выросли за последние 20 лет. Изображения и тексты переводят в цифровую форму, чтобы машины могли их анализировать. Все оснащено датчиками. Такой активный интерес основан на возможности этих данных помочь людям снизить неопределенность и оставаться в курсе происходящего.
Рассмотрим улучшенные датчики сердечного ритма. Многочисленные компании и некоммерческие организации с медицинскими названиями, такие как AliveCor и Cardiio, разрабатывают продукты, использующие данные о сердечном ритме. Например, стартап Cardiogram сделал приложение для iPhone, которое получает показатели сердечного ритма от Apple Watch и выдает огромный объем информации: посекундные замеры частоты сердцебиения. Пользователи могут отслеживать, не подскакивает ли она в течение дня и повысилась или уменьшилась за год или даже за десять лет.
Изобилие данных и возможности прогностических машин открывают подобным разработкам широкие перспективы. Научные и производственные исследователи продемонстрировали, как смартфоны прогнозируют нарушения сердечного ритма («мерцательную аритмию», как говорят медики). Продукты, разрабатываемые Cardiogram, AliveCor и Cardiio с помощью прогностических машин, используют данные о сердечном ритме, необходимые для диагностики кардиологических заболеваний. Общий подход компаний заключается в том, чтобы на основе выявленных данных прогнозировать информацию о наличии у пользователя отклонений в работе сердца.
Без входных данных прогностические машины не смогут работать, поэтому их называют просто «данными», в отличие от обучающих и данных обратной связи.
Неподготовленные пользователи не улавливают в необработанных данных связи между информацией о частоте сердечных сокращений (ЧСС) и нарушением сердечного ритма. А приложение Cardiogram выявляет его с 97 %-ной точностью благодаря работе глубокой нейронной сети. Отклонения в работе сердца становятся предвестниками 25 % всех инфарктов, а усовершенствования анамнеза позволят врачам вовремя назначить лечение. Для профилактики инфаркта существуют лекарства.
Но для этого потребители должны предоставить сведения о своем сердечном ритме. Машина не сможет прогнозировать риски для конкретного человека, не имея о нем необходимой информации. При наличии у прогностической машины индивидуальных данных человека она выдаст прогноз вероятности нарушений сердечного ритма.
Как машины учатся с помощью данных
Нынешнее поколение технологий ИИ не без причины называется «машинным обучением». Оно учится на данных. В только что описанном примере машина для составления прогноза нарушений сердечного ритма (и вероятности развития инфаркта) устанавливает связь между ЧСС и случаями диагностированной мерцательной аритмии. Для этого она сопоставляет входные данные Apple Watch – их статистики называют «независимыми переменными» – с информацией о нарушениях сердечного ритма («зависимой переменной»).
Чтобы обучить машину, информация о нарушениях сердечного ритма должна исходить от тех же людей, что входные данные Apple Watch. Другими словами, прогностической машине необходимы данные о большой выборке людей с нарушениями сердечного ритма наряду с полученными от них данными. Кроме того (и это важно), необходимы также аналогичные показатели большой выборки людей, не страдающих кардиологическими заболеваниями. Прогностическая машина сравнивает данные обеих групп, на основании чего выдает прогноз. И если паттерн сердечного ритма нового пациента ближе к данным «обучающей» выборки людей с нарушениями, то машина прогнозирует у него нарушение сердечного ритма.
Как и большинство медицинских приложений, Cardiogram собирает данные научных исследований с участием шести тысяч пользователей. Из них примерно у двухсот человек уже диагностировано нарушение сердечного ритма, Cardiogram остается только получить с помощью Apple Watch данные и сравнить их с предыдущими показателями.
Такие продукты продолжают совершенствовать точность прогнозов даже после выпуска. Прогностическим машинам необходимы данные обратной связи о корректности прогнозов: в данном случае это частота нарушений сердечного ритма среди пользователей продукта. Машина объединяет эти данные со входными данными кардиомониторинга и на основе полученной информации непрерывно повышает качество прогнозов.
Однако добыть обучающие данные не всегда легко. Для прогноза одной группы (в нашем случае это пациенты с риском сердечных заболеваний) необходима информация как о потенциальном риске (нарушении сердечного ритма), так и о том, что необходимо для уточнения прогноза данного прецедента в новом контексте (кардиомониторинг).
Еще сложнее, когда прогноз касается будущих событий. Вы можете предоставить прогностической машине подтвержденную информацию только на настоящий момент. Скажем, вы надумали купить билет на игры любимой команды на следующий сезон. В Торонто большинство болеет за местную хоккейную команду Maple Leafs. Вы хотите ходить только на матчи, в которых любимая команда победит, и не желаете платить за проигрышные. Вы решили, что стоит купить билет только в случае, если команда в следующем году выиграет минимум половину матчей. Но для этого вам необходимо спрогнозировать количество побед.
В хоккее выигрывает команда, загнавшая больше шайб в ворота противника. Поэтому вы предполагаете, что команда, забивающая больше голов, побеждает чаще. Вы загружаете в прогностическую машину данные за прошлые сезоны: сколько каждой команде засчитали голов, сколько она пропустила, каково количество побед каждой команды. Вам кажется, что это великолепный способ прогнозировать вероятность победы. Теперь вы собираетесь таким же образом прогнозировать количество выигрышей на следующий год.
Но ничего не выйдет, поскольку это невозможно. У вас нет информации о том, как сыграет команда в предстоящем сезоне, следовательно, вы не узнаете ничего о предстоящих спортивных победах или поражениях. У вас есть данные за прошлый сезон, но они не пригодятся, потому что вы научили машину прогнозировать по данным за текущий год.
Для вашего прогноза необходимы данные, доступные на момент прогнозирования. Возможно переучить прогностическую машину использовать забитые в прошедшем году шайбы для прогнозирования предстоящих побед. Можно добавить другую информацию, например о выигранных ранее матчах или возрасте игроков команды и качестве их игры.
Так работают многие коммерческие приложения ИИ: для создания прогностической машины берут входные данные вместе с критериями исходов, а затем используют входные данные новой ситуации для прогнозирования ее исхода. Если вы располагаете данными по исходам, то ваша прогностическая машина может непрерывно обучаться на данных обратной связи.
Решения по данным
Сбор информации нередко стоит дорого, но прогностические машины иначе работать не могут. Исходные данные необходимы для их создания, функционирования и совершенствования.
Следовательно, нужно найти решение относительно масштаба и диапазона приобретаемых данных. Сколько разных типов данных вам понадобится? Сколько различных объектов требуется для обучения? Как часто вам необходимо собирать данные? Большее число типов, объектов и частый сбор означают, что цена будет выше, но и выгода тоже увеличится. Взвешивая решение, следует тщательно продумать, что именно вы собираетесь прогнозировать. Конкретные предсказательные задачи подскажут ответ.
Программа Cardiogram разработана для прогнозирования риска развития и возникновения инфарктов. Нарушения сердечного ритма в ней использовались в качестве индикатора (подтвержденного медициной). В качестве цели установили выявление нарушений, после чего оставалось только получить данные о ЧСС пользователей. Могли также использоваться данные о сне, физической активности, родственниках, истории болезни и возрасте. После получения данной информации приложению требовался всего один прибор, точно измеряющий единственный параметр – ЧСС.
Данные были необходимы Cardiogram и для обучения – в базе состояло шесть тысяч человек, и некоторые из них страдали нарушениями сердечного ритма.
Несмотря на обилие датчиков и разнообразие потенциально доступных данных о пользователях, по большинству людей Cardiogram собирала немного информации. И доступ требовался только к данным об отклонениях сердечного ритма у людей из обучающей ИИ выборки. Таким образом, количество переменных оказалось относительно малым.
Для качественного прогноза в распоряжение машины должны быть предоставлены обучающие данные по достаточному количеству людей (или единиц анализа). Количество зависит от двух факторов: первый – стабильность «сигнала» по отношению к «шуму», второй – насколько точным должен быть прогноз, чтобы он имел смысл. Иными словами, требуемое количество людей зависит от того, считаем мы ЧСС сильным или слабым прогностическим критерием нарушений сердечного ритма, и того, насколько дорого обойдется ошибка. Если ЧСС считается сильным прогностическим критерием, а ошибки не принесут проблем, то достаточно нескольких человек. Если же это слабый критерий или любая ошибка может стоить жизни, то необходимы тысячи людей, а лучше миллионы. В предварительном исследовании Cardiogram, как мы уже говорили, использовалась выборка из шести тысяч человек, в том числе двухсот с нарушениями сердечного ритма. Впоследствии сбор дополнительной информации осуществлялся посредством обратной связи о том, диагностировано ли у пользователей нарушение сердечного ритма.
Почему именно шесть тысяч? Специалисты по обработке и анализу данных пользуются отличным инструментарием для получения необходимого объема информации с учетом желаемой надежности и степени точности прогноза. Эти инструменты называют «расчетом мощности» – они сообщают, сколько единиц требуется для проведения анализа, с тем чтобы прогноз имел смысл. Очевидно, придется искать компромисс: для более точного прогноза необходимо больше анализируемых показателей, а они могут дорого стоить.
Cardiogram требует постоянного сбора данных – посекундного, – и для этого используется Apple Watch: ритм сердечных сокращений варьируется в течение дня, а для точности измерений необходим многократный анализ того, насколько измеренный показатель типичен для конкретного человека. Алгоритмы Cardiogram используют устойчивый поток данных от устройства, которое человек постоянно носит на теле, в противовес результатам отдельных измерений при посещении врача.
Сбор данных потребовал существенных вложений. Пациенты постоянно носили устройства, что не всегда удобно в повседневных действиях (особенно тем, у кого нет Apple Watch). Поскольку речь шла о здоровье, было необходимо соблюдать конфиденциальность, и Cardiogram разрабатывалась с ее учетом, что повысило расходы и снизило способности машины совершенствоваться при помощи обратной связи. Она собирала данные для прогнозов посредством приложения, а все данные хранились на устройстве.
Далее мы обсудим разницу между статистическим и экономическим подходами к количеству требуемой информации. (Вопросы конфиденциальности мы рассмотрим вместе со стратегиями в .)
Экономия на масштабе
Чем больше данных, тем лучше прогноз. Но сколько их нужно? Преимущества дополнительной информации (единиц анализа, типов переменных и частоты) могут увеличиваться или уменьшаться вместе с имеющимся объемом данных. Выражаясь экономическим языком, отдача от масштаба может быть возрастающей или убывающей. С чисто статистической точки зрения у данных убывающая отдача от масштаба. Мы получаем больше ценной информации из третьего наблюдения, чем из сотого, и больше из сотого, чем из миллионного. По мере добавления наблюдений к обучающей информации они все меньше и способствуют улучшению прогноза.
Каждое наблюдение приносит дополнительные данные для обоснования прогноза. Cardiogram учитывает промежутки между ударами сердца. Говоря «у данных убывающая отдача», мы подразумеваем, что первых ста ударов достаточно для того, чтобы убедиться, есть у человека нарушения сердечного ритма или нет. Каждый последующий удар менее важен для уточнения прогноза, чем предыдущие.
Для примера рассмотрим расчет времени выхода из дома, чтобы вовремя приехать в аэропорт. Если вы там ни разу не были, первая поездка даст много полезной информации. После второй и третьей вы определите среднее время в пути. В сотый же раз вы вряд ли узнаете что-то новое. Вот что означает убывающая отдача от масштаба данных: по мере поступления дополнительных показателей данных каждый следующий раз дает меньше информации (и отдачи), чем предыдущий.
С экономической точки зрения это неверно, однако не в плане улучшения прогноза с помощью дополнительных данных. Смысл в том, что данные повышают ценность, которую вы извлекаете из прогноза. Если прогноз и исход совпадают, то убывающая отдача от наблюдений статистически подразумевает убывающую отдачу в отношении интересующих вас итогов. Но иногда прогноз и исход различаются.
К примеру, у пользователей есть выбор: брать продукт вашего или какого-то другого производства. И ваш они выберут только в том случае, если он так же хорош или лучше, чем у конкурента. При условии постоянной доступности данных все продукты будут одинаково хороши. Например, большинство поисковых машин на одинаковые запросы выдает похожие результаты. И в Google, и в Bing на запрос «Джастин Бибер» вы получите одно и то же.
Ценность поисковой машины зависит от ее способности выдать лучший результат на необычные запросы. Попробуйте набрать в строке поиска Google или Bing слово «подрыв» (disruption). На момент, когда мы пишем эти строки, Google показал словарное определение и ссылки на упоминания подрывных инноваций профессора Гарвардской школы бизнеса Клея Кристенсена. В первых девяти результатах Bing содержались словарные определения. Результаты Google были лучше, потому что для предположения о том, что именно ищет пользователь с необычным запросом, требуются данные о таких пользователях. Большинство людей пользуется Google и для обычных, и для непростых запросов. Даже небольшие преимущества поисковой машины могут увеличить долю рынка и доход.
Итак, с технической позиции у данных убывающая отдача от масштаба – миллиардный поиск менее полезен для улучшения поисковой машины, чем первый, – но с точки зрения бизнеса данные обладают огромной ценностью, если у вас их больше и они лучше, чем у конкурента. Некоторые утверждают, что данные об уникальных факторах приносят несоразмерно большие преимущества на рынке. И увеличение объема данных приводит к такому же результату. Следовательно, с экономической точки зрения в обоих случаях для данных характерна прибывающая отдача от масштаба.
Выводы
• Прогностические машины используют три типа данных:
• обучающие данные для ИИ;
• входные данные для прогнозирования;
• данные обратной связи для повышения точности прогноза.
• Сбор данных требует затрат – вложения. Его размер зависит от того, сколько данных вам необходимо и чем осложнен процесс сбора. Крайне важно уравновесить издержки на приобретение данных с выгодой от повышенной точности прогноза. Для определения оптимального подхода требуется оценить окупаемость затрат для каждого типа данных: сколько нужно вложить для сбора и насколько ценным окажется повышение точности соответствующих прогнозов?
• Увеличение ценности с поступлением дополнительных данных зависит от статистических и экономических причин. С точки зрения статистики у данных – убывающая отдача. Каждая следующая порция данных улучшает прогноз меньше, чем предыдущая; десятое наблюдение более существенно для прогноза, чем тысячное. С точки зрения экономики все не так однозначно. Добавление данных к существующему большому объему может быть эффективнее, чем к маленькому, – например, если дополнительные данные делают прогностическую машину пригодной к использованию, повышают ее продуктивность или позволяют обойти конкурента. Таким образом, организация должна понимать взаимосвязь между добавлением данных, повышением точности прогнозов и увеличением ценности.