2.21. Как работает переводчик Google
Математические понятия: теория вероятности, компьютерное программирование
Если вы когда-нибудь учили другой язык, то вы знакомы с процессом перевода. Студент, изучающий языки, дотошно анализирует каждое предложение, пытаясь выяснить значение каждого слова со словарем в руках и знанием грамматических правил в голове. Потом он определяет род и число и выделяет подсказки контекста. Если вы не владеете обоими языками в совершенстве, этот процесс будет трудоемким и будет выполняться по частям.
Но переводчик Google обходит всю эту работу стороной. Вместо этого программа по переводу Google использует статистические методы, чтобы сравнить документы на первом языке с документами на втором языке. Полагаясь на тексты, предоставленные ООН, которая обычно их публикует на шести языках (английском, французском, русском, испанском, китайском и арабском), программа выстроила огромную базу данных языковых примеров (база данных переводчика Google на данный момент использует информацию примерно на 80 языках). Она сканирует сотни миллионов документов в поисках структур и пытается определить, как слова чаще всего переводятся. Этот процесс, который вообще не зависит от знания определений слов или грамматики, называется статистическим машинным переводом. С математикой его связывает то, что он зависит от теории вероятности: при наличии предложения на языке А, какова вероятность того, что предложение на языке Б – это перевод первого предложения?
Статистический машинный перевод берет свое начало в теории информации, разделе прикладной математики, который занимается обработкой сигналов, сжатием данных и языками. Предполагается, что он родился благодаря инженеру и математику Клоду Шеннону с публикацией работы «Математическая теория связи» в 1948 году в журнале телефонной компании «Bell System». Теория информации используется в криптографическом анализе, а также в передаче сообщений с помощью мобильных телефонов и компьютеров. Без математики в теории информации телефон в вашем кармане будет не полезнее кирпича. И потрясающая возможность перевода текста с помощью вычислительной обработки данных с помощью сети станет невозможной.
Сейсмическая разведка
Теория информации также необходима людям, которые работают под землей, чтобы добыть нефть. Их поле деятельности, сейсмическая разведка нефти, зависит от теории информации, чтобы устранить нежелаемый шум, который может стать помехой для сигналов из нефтяных месторождений, и выдать чистый сигнал.