Отражение человека в данных

В процессе развития технологических продуктов люди становятся все более разборчивы. Массивы данных затмевают скучные продукты прошлого. Раньше телевизоры не реагировали на наши эмоции. Теперь видеосайты терпеливо и аккуратно собирают отзывы о загрузке, поиске, перемотке вперед и назад. Они все фиксируют, а потом используют полученную информацию для анализа различных показателей, таких как предпочтения пользователей или расходование средств.

Американская драма «Карточный домик» – телесериал, в котором политики борются за власть, принадлежащий компании Netflix. Компания была хорошо осведомлена о преимуществах анализа массивов данных. Помимо поведения пользователя, которое было упомянуто выше, Netflix собирала информацию о времени, оборудовании, которое используется для просмотра, количестве просмотров, реакции зрителей на главных героев и сцены и т. д. Благодаря полномасштабному анализу был сделан вывод о том, что «Карточный домик» должен набрать высокий рейтинг. Поэтому у BBC (British Broadcasting Corporation) были приобретены дорогостоящие авторские права, а Кевин Спейси утвержден на главную роль как самый подходящий кандидат. Как мы можем наблюдать, ставка Netflix на «Карточный домик» оказалась безошибочной. Пока мы вздыхаем перед экранами о том, что президент в телесериале контролирует все, на самом деле он не осознает силу данных.

Трамп, бывший президент США, использует данные на полную мощность. По словам Bloomberg и других средств массовой информации, его техническая команда через Facebook, Twitter и другие платформы создает точные портреты избирателей, собирает сведения о их поведении, реакции на новости и события, подталкивает их к взаимодействию с избирательной кампанией. Каждый пост Трампа в Facebook или Twitter различается типом контента. Они направлены на разные целевые аудитории и демонстрируются разным пользователям в сети.

Портрет пользователя, созданный с помощью массивов данных, также является областью, в которой успешно работает Baidu Brain. В 2016 году вышел в прокат популярный фильм «Warcraft» при сотрудничестве легендарной киностудии и Baidu. Благодаря массовому анализу пользователей Baidu рекламные ролики демонстрировались только потенциальной аудитории. Хотя у фильма наблюдались плохие кассовые сборы на североамериканском рынке, в Китае сумма выручки от проката составила 221 миллион долларов. Поклонники «Warcraft» кричали «За Орду!» в кинотеатрах, возможно, потому, что силу им дали массивы данных.

Китайцы говорят, что «человек употребляет пищу, данную небом». В отличие от выбора фильма, тема выбора продуктов питания будет актуальной всегда и для всех. В 2013 году Baidu опубликовала «ТОП-10 лучших в Китае продуктов питания» на провинциальном и муниципальном уровне. Этот список был сформирован на основе 77 миллионов запросов в поисковой системе Baidu о «еде». Он выявляет различные привычки и предпочтения в культуре питания пользователей.

В массивах данных было обнаружено много интересных явлений. Около 300 000 человек задавались вопросом о том, какой самый быстрый способ похудеть. Многие пользователи уделяют внимание тому, что они едят. С вопросом «Можно ли употреблять краба, который был жив вчера?» к поисковику обратились 60 000 человек. Можно отметить, что в Китае трепетно относятся к крабам, употребляемым в пищу. Но есть и обычные повседневные вопросы: «можно ли это есть», «как это есть». К примеру, вопрос «можно ли есть тофу со шпинатом?» породил жаркие дискуссии в сети.

Все эти проблемы кажутся запутанными и сложными. Но вся прелесть массивов данных заключается в повторении. Большие данные могут дать более значимый ответ. Например, пользователи сети в провинциях Фуцзянь и Гуандун часто задают вопросы о том, можно ли есть некоторых насекомых, а пользователи сети на северо-западе не знают, как есть морепродукты. Вопросы и проблемы разных пользователей разные. Baidu Big Data является источником информации о «еде» для каждой провинции и города. Кроме этого, массивы данных учитывают географическое положение пользователей, время вопроса и ответа, информацию о еде или сути вопроса и даже бренды мобильных устройств, используемых для поиска.

Помимо поэтапного сбора информации о человеческих интересах, большие данные создают наши тела. Сегодня многие люди знакомы с фитнес-браслетами. Они анализируют наше состояние здоровья и дают рекомендации, основываясь на ежедневных данных нашей физической активности, такой как ходьба, потребление калорий, продолжительность сна и т. д. В будущем мы сможем с помощью массивов данных предотвращать болезни или выявлять потенциальные угрозы нашему здоровью.

В жизни существует множество примеров массивов данных. Большинство современных интернет-продуктов, будь то компьютеры или смартфоны, имеют в своей основе более или менее большие данные. В тот момент, когда мы начинаем относиться к использованию этих устройств, как к должному, мы впускаем массивы данных в нашу жизнь. Они молча наблюдают за нами, анализируют каждую деталь нашей жизни, тонко намекая и советуя сделать выбор в пользу того, что соответствует нашим интересам.

Прорыв: машинное обучение и искусственный интеллект

В 1950 году Алан Тьюринг создал тестовый метод для машин, позднее получивший известность под названием «тест Тьюринга». Легендарный ученый полагал, что если машина может разговаривать с людьми (посредством оборудования) и при этом не рассматривается как машина, то ее можно считать умной. Это упрощение сделало доводы Тьюринга о возможности существования мыслящих машин убедительными. Тестовые испытания используются для оценки уровня искусственного интеллекта до сих пор.

Это положение намекает нам на новый возможный путь развития. Нам не нужно беспокоиться о том, по каким правилам функционирует машина, пока она ведет себя как человек. Поэтому появились предложения позволить машинам изучать правила самостоятельно, чтобы людям больше не нужно было принимать участие в их рабочем процессе.

В 1949 году Дональд Херб сделал первый шаг в направлении автоматического обучения, заложив в основу принципы нейропсихологии. Он создал метод, который позже получил название «правила обучения Herb». Ученый полагал, что процесс обучения нейронных сетей происходит на синаптических сайтах между нейронами. Интенсивность синаптических связей изменяется в зависимости от активности нейронов до и после синапса. А корректная обратная связь укрепляет связь между двумя нейронами. Этот механизм напоминает эксперимент Павлова: если каждый раз перед кормлением собаки давать звонок, то нервная система животного в дальнейшем будет связывать звонок с едой. Херб использовал набор весовых формул для имитации нейронной сети человека, чтобы обозначить силу связей между нейронами. Он также создал набор методов, с помощью которых машины различают предметы. Каждая поступающая информация проходит оценку через метод «дерева решений», и решение принимается на основе полученных данных. Кроме того, этот метод лег в основу классификатора информации. Машина сортирует входящую информацию, извлекает ее статистические свойства и распределяет на несколько классов в соответствии с родством или сходством. Почти так же, как люди распределяют информацию о предметах и явлениях, опираясь на наблюдения. Но процесс «наблюдения» у машины, достигнутый посредством глубокого обучения, напоминает условный рефлекс. Она не мыслит и не выявляет причинно-следственных связей. Она всего лишь делает выводы из исходных данных и их релевантности.

Последующее десятилетие тема искусственного интеллекта вдохновляла на исследования все больше людей. Началось интенсивное развитие отрасли, а открытия шли одно за другим. В 1952 году ученый IBM Артур Сэмюэль успешно изобрел программу проверки, которая способна улучшить результаты работы машины. Кроме того, он разработал концепцию «глубокого обучения» и определил ее как «область исследований, которая обеспечивает компьютерную мощь без явного программирования».

В 1957 году Розенблатт предложил концепцию персептрона, которая стала основой для развития нейронных сетей и поддержки векторных машин (SVM). Перцептрон – это своего рода «классификатор», построенный по алгоритму линейной классификационной модели. Его принцип состоит в том, чтобы разделить данные путем проб и ошибок и найти подходящую гиперплоскость (гиперплоскость может быть определена следующим образом: в трехмерном пространстве координат двумерная форма называется плоскостью и может разделить трехмерное пространство. Если данные многомерны, то в N-мерном пространстве координат размерность N-1 является гиперплоскостью, которую можно разделить на N-мерные пространства). Когда вы вводите два вида областей, одна из которых дает ответ «верно», а другая – «неверно», персептрон находит разделительную границу между двумя разными областями.

Персептрон подобен однослойной нейронной сети со входом и выходом. Он хорошо справляется с простыми ситуациями, но абсолютно не годен для сложных. Например, если области с ответами «верно» и «неверно» смешаются друг с другом или появится третья область, персептрон не сможет найти границу для классификации. Это лишает персептрон возможности решать, казалось бы, простые задачи.

В настоящее время возможности программирования позволяют не вводить данные вручную. Так как машина обладает собственным интеллектом, она делает это самостоятельно. Современный искусственный интеллект разрабатывается на основе машинного обучения. Но скорость его развития ограничена возможностями аппаратных средств и методов.

Если несколько компьютеров, микросхем подключены к сети машинного обучения и имеют несколько сетевых уровней, то они войдут в так называемую категорию «глубокого обучения». В конце 1970-х годов профессор Джеффри Хинтон и его коллеги обнаружили, что если создать многослойную нейронную сеть, то можно позволить компьютеру находить шаблоны решения проблем и задач самостоятельно. Они разработали алгоритм создания нейронной сети. Но сложность многослойных нейронных сетей привела к усложнению процесса машинного обучения. В условиях нехватки массивов данных и при недостаточных возможностях аппаратного обеспечения это сделало развитие нового направления невозможным в тот период времени.

С середины 1960-х до конца 1970-х годов темпы машинного обучения практически остановились в развитии. И ситуация не улучшалась до 1980-х годов. Развитие компьютерной производительности и появление интернета позволили исследованиям искусственного интеллекта наконец продвинуться вперед. Современное машинное обучение начало формироваться в 1990-х годах.

Коммерческое использование и повсеместное распространение интернета началось в 1990-х годах, что и привело к разработке методов распределенных вычислений. Суперкомпьютеры стоят дорого. А распределительная вычислительная технология позволяет нескольким обычным компьютерам работать вместе. Каждый из них решает определенную часть задачи, после чего полученные результаты суммируются. Таким образом, их возможности могут даже превзойти возможности суперкомпьютера. Метод распределительных вычислений адаптируется к увеличению объема данных.