Данные прочно обосновались в нашей жизни. Компьютеры, смартфоны, все виды умных предметов домашнего обихода собирают данные о нас через вычислительное моделирование и все больше начинают понимать наши потребности. Это превращает самые обыденные события, такие как просмотр новостей, занятия спортом, употребление еды, прослушивание песен и увлечение путешествиями, в неисчерпаемый источник данных.
Смартфон в течение дня накапливает до 1Gb данных о своем владельце.
Это составляет примерно 13 комплектов «Истории 24 эпох». Каждый день, используя данные, мы пишем свою «историю жизни».
В отличие от данных в традиционном смысле, такие данные – это «жизнь». Современные данные не являются объективными и абсолютными математическими измерениями или историческими записями. Это больше походит на естественное расширение возможностей нашего тела: голоса, зрения, памяти и даже нашего «я», что теперь существует в виде данных. Если смартфон стал новым органом человека, то данные, полученные этим новым органом, являются «шестым чувством». И новый мозг, который имеет дело с этим «шестым чувством», – это развивающийся искусственный интеллект.
Люди используют данные в течение длительного периода времени. А с момента промышленной революции в образе существования данных произошли внушительные изменения. Так почему концепция «массивов данных» появилась только в последние годы? Просто потому, что теперь мы можем записывать и вычислять их гораздо больше? Естественные числа могут длиться бесконечно: 1, 2, 3, 4… Значит, они бесконечны. Но с массивами данных все не так очевидно. Необходимо выделить основные их характеристики.
Во-первых, массивы данных «большие». Никаких сомнений, что они «большие» по сравнению с тем, как люди хранили данные раньше. Это не оценочное суждение, а геометрический разрыв. Подумайте о 720 миллионах запросов о местоположении на карте Baidu, а затем подумайте о том, сколько кликов в интернете делают каждый день, сколько текста и изображений в социальных сетях отправляются каждый день… Количество данных, собранных в течение дня на различных платформах больших данных, может превзойти количество слов и изображений, собранных людьми в течение тысяч лет.
Во-вторых, массивы данных многомерны. Многомерность означает, что массивы данных дают многогранное описание вещи и, следовательно, более точное.
В фильме «Ультиматум Борна» была компания массивов данных, которая на основе интернет-данных, данных о трафике, исторических сведений помогала Центральному разведывательному агентству США (ЦРУ) быстро отслеживать и находить подозреваемых. Прототип компании существует в реальной жизни. Данные компании Plantir помогали правительству США отслеживать перемещения Бен Ладена. Тем самым они помогают бороться с терроризмом и предотвращать социальные кризисы. Более распространенным делом компании является выявление финансовых мошенников.
В качестве примера рассмотрим заявку на кредит. В кредитной отчетности традиционные финансовые учреждения обычно собирают данные приблизительно по 20 показателям: возраст, доход, образование, профессия, недвижимость, наличие автомобиля, а также наличие кредитов или займов. Затем они оценивают полученную информацию, изучают кредитную историю и определяют способность клиента к гашению кредита или займа.
Интернет-компании применяют метод массива данных. Результаты их исследований поражают традиционные финансовые организации. У «BAT» существуют свои финансовые услуги. Имея доступ к исчерпывающей базе данных о пользователе, организация может запросить всевозможные онлайн-записи о клиенте, например было ли замечено за ним аномальное поведение. Кроме того, она может сравнить имеющуюся в базе данных банков информацию о клиенте с информацией в сети интернет. Сопоставление моделей поведения мошенников и поведения клиента, анализ привычек клиента, способностей к гашению и наличия постоянного дохода минимизируют риски организации при оказании финансовых услуг. Разумеется, все сведения о пользователе конфиденциальны и не разглашаются. Для пользователя такая система тоже дает свои плюсы. Время ожидания кредита сокращается в разы, поскольку массивы данных проверяют до 10 000 заявителей за несколько секунд. Исходная информация извлекается и просматривается, а десятки тысяч показателей анализируются.
Кредитование незнакомца – это «слепота». Традиционный метод оценки платежеспособности клиента напоминает «изучение слона двадцатью слепцами». Ему суждено быть ошибочным. Многомерность больших данных подобна десяткам тысяч людей, которые одновременно изучают изображение, а после дают обратную связь. Чем больше показателей, тем точнее вывод.
В-третьих, массивы данных дают возможность обработки неструктурированных данных. В обработке структурированных данных нет сложностей. Вы можете использовать фиксированные поля, длины и логические структуры, хранящиеся в базе данных, а также использовать форму таблицы, чтобы наглядно отобразить результат (подумайте об общей таблице Excel). Но эра интернета создает большое количество неструктурированных данных. Для изображений, видео, аудио и другого контента нет четкой структуры. Например, данные изображения мы можем понимать только как бесчисленные пиксели на двумерной матрице. Неструктурированные данные быстро растут. По прогнозам, в течение следующих 10 лет они составят 90 % от общего объема. Технология массивов данных с помощью распознавания изображения, голоса, анализа естественного языка и других методов анализирует большое количество неструктурированных данных, значительно увеличивая общий размер имеющихся сведений.
Число неструктурированных данных находится безгранично далеко от суперструктурированных данных. Оно содержит огромную энергию и широкие перспективы применения. Например, в аэропортах и других общественных местах при проверке личности в основном используются данные, которые предоставят сами пассажиры. Современные технологии дают возможность увеличить точность и эффективность проверки благодаря технологии распознавания лиц, речи и проч.
В-четвертых, большие данные – это бесконечный «поток», характеризующийся непостоянством. Он не возвращается. Так же, как и человек не может дважды войти в одну и ту же реку. Потому что, с одной стороны, объем данных слишком велик, чтобы их можно было хранить. С другой, большие данные и действия человека постоянно меняются. Таким образом, Baidu Big Data Laboratories предлагает концепцию под названием «пространственно-временные массивы данных».
Карта – мать пространственно-временных массивов данных. Карта Baidu имеет функцию предупреждения о перегруженности дорог. Если участок свободен, он отображается зеленым цветом; если он перегружен – красным. Он подает сигнал пользователю, что лучше выбрать другой маршрут. Приведем краткий пример нашего взаимодействия с данными. У нас есть два маршрута A и B, и мы можем выбрать любой из них. Сейчас маршрут A перегружен, а маршрут B свободен. Мы, конечно, выберем маршрут B. Но и другие пользователи остановят свой выбор на маршруте В. В таком случае он станет перегружен, а маршрут А освободится. Они взаимозависимы. И влияют на тысячи людей. Полагаясь на функции позиционирования смартфона, Baidu Map может изменить текущие результаты мониторинга трафика в режиме реального времени. И точно определить для каждого местоположения условия дорожного движения. С помощью методов визуализации данных и различных методов оценки можно изобразить повседневный ритм города. Например, перемещение людей на работу, как если бы город двигался свободно. В отличие от традиционных записей, массивы данных действительны только в данный момент времени. Хранить их невозможно. Представляете, какой для этого потребуется жесткий диск? Приложение используется для мгновенного результата, который вынужден исчезнуть.
Игра с данными о времени – сложная задача. В ноябре 2016 года Baidu официально получил доступ к информации о пропавших без вести детях, опубликованной Министерством общественной безопасности. Теперь всякий раз, когда происходит исчезновение детей, карта Baidu и мобильный телефон Baidu показывают имя пропавшего ребенка, характеристики лица, время исчезновения и другую важную информацию. Таким образом в процесс поиска могут быть вовлечены пользователи устройств. После того, как пропавшие дети найдены, карта Baidu и мобильный телефон Baidu также обновят страницу, чтобы люди были в курсе событий. Сокращение времени, которое потребуется информации, чтобы попасть к пользователю, пусть даже на одну секунду, может дать семье надежду.
И последнее, но не менее важное: «большая» производительность массивов данных достигается за счет повторения. Распознавание речи стало возможным потому, что люди несколько раз повторяют одно и то же утверждение. Машина неоднократно анализирует все нюансы и может полностью понять смысл высказывания. Также благодаря повторяющимся движениям людей система может анализировать условия городского движения. Математическим значением «повторения» является «насыщение». Раньше люди не могли понять закон вещи посредством исчерпывающих методов. Они могли только использовать «выборку» для оценки или метод наблюдения. Но массивы данных изменили «глупый метод» исчерпывающего закона. Это возможно.
Размер и скорость обработки данных могут непосредственно определять уровень интеллекта. История о том, как Google повышает качество перевода за счет объема данных, уже давно не секрет.
В 2005 году Национальный институт стандартов и технологий США в очередной раз провел оценку программного обеспечения машинного перевода. Многие университеты и крупные компании подали заявки от правительства США на финансирование научных исследований в области машинного перевода. Поэтому эти организации должны были пройти проверку. Google – это команда или компания, которая не имеет государственного финансирования и может присоединиться к оценке добровольно. Среди участников были IBM, Aachen, Германия и другие ветераны машинного перевода. Все были сильны в своей сфере в течение многих лет. И только компания Google была новичком.
Тем не менее результаты были ошеломляющими: Google занял первое место и набрал гораздо больше очков, чем все остальные. Производительность Google достигла 51,37 % баллов BLEU, а компании, занявшие 2-е место и 3-е место, достигли только 34,03 % и 22,57 % соответственно. Впоследствии Google опубликовал свои советы: Используйте больше данных! Не в два раза больше, чем у других, но в десятки тысяч раз больше! Google собирает огромные объемы двуязычных данных, которые люди оставляют в поисковых системах в интернете. Кроме того, многие люди делают переводы на китайском языке, с помощью которых компьютер также выявляет эффективные методы перевода. Только основываясь на увеличении объема данных, можно обучить и изменить продукт. Как следствие, он выйдет на лидирующие позиции даже без модернизации прочих механизмов. Google выиграл потому, что его способность «насыщения» превосходила другие.
Преимущества интернет-компаний, использующих массивы данных, таких как Google и Baidu, являются всеобъемлющими. Преимущества, продемонстрированные на примере перевода, можно легко перенести на другие области, таки, как распознавание речи или образов. Даже такая игрушка, как приложение Baidu «Генератор стихотворений», объединяет массивы данных и искусственный интеллект. Хо Джунцзюн, главный архитектор Baidu и руководитель технологии машинного перевода, представил, что традиционное программное обеспечение для написания стихов сможет использовать статистические модели для генерации первого стиха в соответствии с заданным ключевым словом, а затем сгенерирует второе предложение, повторяя процесс до тех пор, пока стихотворение не будет завершено. Процесс написания стихов Baidu работает следующим образом: пользователь вводит любое слово или предложение, а система объединяет массивы данных в поисковой системе Baidu, чтобы проанализировать ввод пользователя.
Анализ и ассоциация получаются из ключевых слов с более высокой релевантностью. Пользователь вводит слово или предложение наугад, например «западное озеро». Baidu анализирует большое количество данных поэзии и прозы, чтобы выяснить, какие ключевые слова следует включить в стихотворение на заданную тему. К «западному озеру» ключевыми словами могут быть «сломанный мост», «выпавший снег», «дымный дождь», «сорняк ивы» и т. д. Затем, используя технологию глубоких нейронных сетей, стихотворение создается с использованием всех ключевых слов, которые эквивалентны очертаниям, часто используемым в описании человека. Опираясь на заданный шаблон, система гарантирует, что стихотворение будет логично и выдержано в определенном художественном стиле. Раньше результаты «творчества» Baidu были хорошими, но им недоставало настроения. Теперь мы можем это компенсировать за счет использования метода машинного перевода на каждом этапе. Первое предложение стихотворения «переводится» для того, чтобы возникло второе. Второе «переводится» для третьего и т. д. «Западное озеро» – входные данные, которые Baidu превращает в красивое и логичное стихотворение из 7 строк.