Книга: Baidu. Как китайский поисковик с помощью искусственного интеллекта обыграл Google @bookiniero
Назад: Необходимая макросреда
Дальше: Данные истории жизни

Раздел 3. Превращение из куколки в бабочку: ИИ, массивы данных и глубокое обучение

Серпантин истории

О чем мы говорим, когда говорим о данных?

В представлении большинства людей слово «данные» – это ежемесячные цифры на счетах за воду, электричество, уголь или индекс красного и зеленого цвета на графике акций, а также исходный код, который не может быть прочитан множеством компьютерных файлов.

Данные в глазах искусственного интеллекта имеют более широкое значение. С развитием человеческой цивилизации данные продолжают меняться. Сначала были звуки, тексты, рисунки и цифры. В эпоху интернета и электроники они трансформировались в изображения, аудио, видео, щелчки мыши, скольжение пальца по мобильным устройствам. Теперь мы можем добавить к этому сердцебиение и дыхание и даже людей в экономическом производстве. Вся работа и движения были интегрированы в ПОТОК ДАННЫХ.

Сегодня, будь то гравитация или сложная молекула ДНК, человечество может превращать и грандиозные, и крошечные вещи в записи данных. Они стали неотъемлемой частью нашей жизни. Биологи полагают, что половина человеческих тканей состоит из микроорганизмов. А мы можем сказать, что в цифровую эпоху половина жизни состоит из данных.

История развивается по спирали. Давайте вернемся в прошлое. Задолго до зарождения искусственного интеллекта человечество активно практиковало изучение, вычисление и использование данных.

Более пяти тысяч лет назад древние египтяне с помощью наблюдений суммировали астрологические сведения: каждый год, когда на восточном горизонте рано утром появляется звезда Сириус, река Нил начинает выходить из берегов. На этом знании они выявили цикл, определив солнечный календарь на 365 дней в году, и разработали план ведения сельского хозяйства. У далекого Сириуса нет причинно-следственной связи с Землей. Но он появляется в определенном месте, когда Земля совершает один оборот. Он, в свою очередь, является предшественником корреляционных вычислений в эпоху больших данных.

Более четырех тысяч лет назад на сегодняшних британских землях появился Стоунхендж – большой круг из камней, вес каждого из которых составляет около 50 тонн. Это оригинальные часы. Во время летнего солнцестояния первые солнечные лучи каждое утро проходили по главной оси. Последний луч зимнего солнцестояния проходил через Каменные ворота. Для того, чтобы разжечь огонь измерения данных, древние использовали громоздкие каменные приборы. Так же как и китайские солнечные часы, это самый ранний пример визуализации данных.

Более двух тысяч лет назад Птолемей изучал движение Земли. Он сформулировал три основных закона, которые заложили основу для астрономии. И хотя его подход был неверен, по крайней мере он мыслил в верном направлении. Изначально он полагал, что небесное тело движется по круговой траектории. Но на самом деле она была эллиптической. Чтобы сымитировать фактическую кривую движения небесных тел, Птолемей решил использовать движение по кругу. Он протестировал до 40 возможных вариантов кругов, эквивалентных множеству функций кругового движения, чтобы достичь необходимого результата. Это была самая ранняя попытка реализации функции подгонки.

Что такое функция подгонки? Множество данных мы можем представить, как точки, распределенные по одной системе координат. Что нужно сделать, чтобы найти функцию, благодаря которой можно пересечь как можно больше точек? Если точки распределены по определенному закону, например линейно, то их можно описать линейным уравнением.



Рис. 3-2. Представление функции с помощью линейного уравнения.

Примечание: точки, распределенные на левом графике, могут быть аппроксимированы линейной функцией в виде y=ax+b на правом графике.





Если точка распределения образует параболическую форму, то функция получается простой, в виде X2=2py. Однако, если распределение точек данных будет хаотичным, подобрать для них единую функцию будет трудно. Современные люди рассматривают метод множественной функциональной суперпозиции для имитации общей функции. Отрегулируйте вес каждой функции так, чтобы кривая функции суперпозиции могла пройти через как можно большее количество точек. Птолемей записывал большое количество данных о движении небесных тел, а затем пытался смоделировать функцию эллиптической траектории путем наложения нескольких круглых функций. Он использовал все данные, которые у него имелись. Метод функций подгонки подходит для поиска закономерностей из большого количества дискретных записей данных, которые являются основой современного искусственного интеллекта, основой математического метода машинного обучения.

Таким образом, сегодня используются многие базовые математические методы древних людей. Но не только ими ограничивается создание приносящего удовольствие приложения.

Сегодня мы можем восстановить историю с помощью цифрового картирования. Даже в такой игре, как «Мой мир», компьютер рассчитывает угол и длину каждого кирпича и плитки. Так с идеального трехмерного изображения тысячи лет назад начиналось возведение древних стен. В этот момент вы почувствуете, что все великие истории Древнего Египта, Древней Греции и Древнего Китая снова связаны с нами. Мудрость древних, использовавших данные, является одним из самых драгоценных наследий человечества. Она не идет ни в какое сравнение с серебряным поясом золотой короны, который исчез во дворце.

Цивилизация данных прогрессирует. Но большинство людей все еще находятся в тупике. Несмотря на то, что данные слишком близки к нам в повседневной жизни, они нам не знакомы. Каждый человек с детства знакомится со сложением, вычитанием и делением – самыми элементарными данными и алгоритмами. Но какую бы профессию мы ни занимали, мы не можем иметь дело со всеми видами документов, заявлений и счетов. Мы все больше чувствуем, что мы не понимаем данных или даже не осознаем их существования. Но в то же время ежедневно с ними сталкиваемся в высокотехнологичных продуктах. Появление массива данных, машинных алгоритмов и идеи искусственного интеллекта только лишь усугубило это непонимание.

Данные далеко от нас? Напротив, никогда раньше данные не были так тесно связаны с человеческой жизнью, как в современный технологический век. Наши предки умели систематизировать и хранить данные. Но они никогда не записывали себя и окружающий мир так активно и конкретно, как мы сегодня.

Мы постоянно совершенствуем способы сбора и использования данных от калькуляторов, камер, домашних компьютеров и смартфонов до массивов данных и искусственного интеллекта. Теперь мы можем все: собираем ежедневную статистику выбросов углекислого газа одного автомобиля, производим глобальный мониторинг климатических изменений, анализируем предпочтения пользователей интернета, прогнозируем результаты голосования на президентских выборах, отслеживаем и предсказываем рост и падение валюты и других показателей экономического сектора. Данные связывают людей с людьми и образуют плотную сеть. В ней каждый оказывает влияние на изменение мира и друг на друга. Это диалектическое соотношение микро- и макромира. Как и квантовая механика, оно рождает истину и отвечает на бесчисленные вопросы. Традиционные статистические методы уже не в состоянии обрабатывать массивы данных, которые появляются от взаимного влияния. Что делать? Позволить машине самостоятельно обрабатывать данные и извлекать из них знания. Такова природа современного искусственного интеллекта.

Еще 60 лет назад искусственный интеллект рассматривался учеными как серьезная наука. Но даже если обычные люди и были заинтересованы в ИИ, то в период Второй мировой войны интерес угас в связи с отсутствием прогресса после десятилетий быстрого развития науки и техники. Только сегодня мы вдруг обнаружили, что в нашу жизнь входят все новые различные концепции искусственного интеллекта, чтобы связать нас с большими данными. К их числу стоит отнести AlphaGo, Baidu, беспилотный автомобиль и др.

Если сравнивать технологию искусственного интеллекта с недоношенным ребенком, то у нее было два врожденных недостатка: во-первых, до активного внедрения интернета в повседневную жизнь у ИИ было слишком мало данных, что вызывало «недостаток кровообращения»; во-вторых, отсутствие подходящего оборудования привело к отсутствию вычислительной мощности для решения сложных проблем, что стало причиной «недостатка умственных возможностей». Данные – кровь, оборудование – кровеносные сосуды. Как только улучшатся интернет-приложения, удвоится вычислительная мощность компьютера, а вычислительная архитектура революционизируется, обе проблемы будут устранены. Жаркая кровь данных будет проникать в каждый уголок тела, будет распознавать изображения и речь, обрабатывать естественный язык… Откройте глаза, уши, рот – и «сердце» машины оживет!

Назад: Необходимая макросреда
Дальше: Данные истории жизни