23

Приключения машинного перевода

Из-за того что европейцы не захотели ни продолжать распространять важную информацию на латыни, ни перейти для этого на какой-то другой общий язык (например, эсперанто), возник целый ряд дорогостоящих и сложных переводческих задач. Причем решать их приходится в условиях жестких временны́х ограничений, немыслимых в прошлые века. Теперь, когда почти все остальные операции, связанные с передачей новостей, выполняются не курьерами, а электронными устройствами, напрашивается вопрос: почему основная процедура тоже не может выполняться автоматически, специальными устройствами?

Машинный перевод пока только делает первые шаги, но позади у него уже полная событий история. Впервые он возник при драматичных исторических обстоятельствах в ответ на настоятельную политическую потребность. Он не был учрежден в результате акта политической воли, как это произошло с языковыми правилами Европейского союза, а вырос на почве всеобщего ужаса, сопутствовавшего началу холодной войны. США разработали и взорвали атомную бомбу. Какое-то время у них была монополия на это страшное оружие. Сколько времени она может продлиться? Когда Советский Союз догонит Америку? Ответ на этот вопрос можно было получить, просматривая советские научные журналы в поисках показателей уровня развития страны в соответствующих областях. Журналы печатались на русском языке. США нужно было либо подготовить целую армию русско-английских научных переводчиков, либо изобрести машину им на замену.

Но для создания большого коллектива переводчиков с малоизвестного языка требуется много времени. В 1945 году не было очевидного источника знающих английский русских переводчиков с научной подготовкой, поэтому власти задумались над машинным переводом. Были все основания полагать, что именно он позволит решить неотложную задачу – отслеживать возможности Советского Союза в области разработки атомной бомбы.

Вторая мировая война привела к прорыву в криптографии – создании и взломе шифров. Были разработаны статистические методы для расшифровки сообщений, даже если было неизвестно, на каком языке они составлены. Поразительные успехи расшифровщиков из английского научного центра в Блетчли-парке подтолкнули некоторых исследователей к мысли рассматривать сам язык как шифр. В написанном в июле 1949 года знаменитом меморандуме Уоррен Уивер, бывший тогда одним из руководителей Рокфеллеровского фонда, заявил, что «кажется весьма заманчивым объявить книгу, написанную на китайском языке, просто книгой на английском, закодированной китайским кодом. Если у нас есть методы, позволяющие решать почти любые криптографические задачи, возможно, при правильной интерпретации окажется, что у нас есть и алгоритмы перевода?».

Уиверу была известна новаторская работа Клода Шеннона с соавторами в только что возникшей теории информации и кибернетики, и он понимал, что если язык можно рассматривать как шифр, то для математиков, логиков и инженеров, работающих с новыми увлекательными вычислительными устройствами, только что получившими тогда название «компьютеры», открывается широчайшее поле деятельности. Но желание рассматривать язык как шифр имело под собой гораздо более глубокие основания, чем предчувствие, что это создаст интересные задачи для головастых парней.

Код или шифр – это способ представления информации таким образом, что воспринять ее можно только с помощью секретного ключа или кода. Каким бы хитрым ни был ключ и каким бы сложным ни был алгоритм превращения оригинала в код, между закодированным и раскодированным выражениями всегда есть взаимосвязь, которую можно найти. Если сам язык код такого рода, то что он кодирует? В долгой западной традиции размышлений о языке со времен древних греков есть только один возможный ответ: значение (иногда называемое «мыслью»). Чтобы добраться до закодированной сути, то есть до настоящего несократимого простого базового значения выражения, машинному переводчику понадобится освободить реальное высказывание в языке А от всего, что является кодом. На самом деле это всего лишь перепевы той древней идеи, что язык – одежда мысли. Сам Уивер предлагал следующую аналогию:

Представьте себе, что люди живут в нескольких глухих башнях, построенных на едином фундаменте. Пытаясь общаться, они кричат друг другу из своих башен. Звуку очень трудно пробиться внутрь даже ближайших башен, и процесс коммуникации проходит плохо. Но спустившись в низ своей башни, человек оказывается в большом открытом подвале, общем для всех башен. Здесь он легко обменивается полезной информацией с теми, кто тоже спустился вниз.

Мечта о «легком обмене полезной информацией» со всеми людьми из «большого открытого подвала» – общей основы человеческой жизни – отражает древний и, в первую очередь, религиозный взгляд на язык и значение, от которого очень трудно отказаться, несмотря на его чисто гипотетический характер. Ибо какой язык станут использовать люди для общения в «большом открытом подвале»? Язык глубинного смысла. На следующем этапе развития машинного перевода и современной лингвистики его стали называть интерлингвой или инвариантным ядром значения и мысли, которое зашифровано в сообщении на любом языке.

Таким образом, задача, которую ставили перед собой пионеры машинного перевода, почти совпадала с задачей переводчика в формулировке современных теоретиков и философов: выявить и реализовать чисто гипотетический язык, на котором на самом деле говорят все люди в большом открытом подвале своих душ.

Как это можно было бы автоматизировать? Уже существовала масса интеллектуальных методов, как будто специально для этого созданных. С тех самых пор как римляне стали учить молодежь читать и писать по-гречески, в западной традиции изучающим языки всегда говорилось, что перед ними стоят две основные задачи: выучить слова иностранного языка и выучить его грамматику. Именно поэтому наши двуязычные словари отделены от учебников грамматики, содержащих наборы правил, по которым слова из словаря можно объединять в осмысленные цепочки. Вот что такое язык в нашей древней, но неизменной языковой философии: своего рода детский конструктор, состоящий, с одной стороны, из болтов, гаек, брусьев, перекладин, блоков и шестеренок (в нашем случае предлогов, глаголов, существительных, прилагательных, частиц и наречий), а с другой – из набора правил о том, как их можно соединять. Гайка навинчивается на болт, но не на шестеренку, точно так же прилагательное ставится перед существительным, а предлог перед ними обоими…

В момент зарождения машинного перевода имелась теоретическая возможность (вскоре ставшая практической) хранить на компьютере большой массив слов, разбитых на грамматические категории, разработанные греками и римлянами. Можно было хранить и два массива: один для русского языка, а другой – для английского, указав компьютеру, какое английское слово соответствует тому или иному русскому. Менее ясно было, как реализовать подразумеваемое в метафоре Уивера утверждение, что людей из отдельных башен можно собрать в общем подвале, – то есть как научить компьютер выявлять значение предложения по его форме. Для этого компьютеру должна быть известна вся грамматика языка. Ему следует сообщить, из чего она состоит. Но кому известна вся английская грамматика? Все, кто изучает язык, быстро усваивают, что систематизированные закономерности часто нарушаются всевозможными исключениями. Каждый носитель языка знает, что правила грамматики можно нарушать (что он часто и делает). Полное лингвистическое описание какого бы то ни было языка остается лишь мечтой, далекой от реальности. Это одна из двух причин, по которой первоначальный этап развития машинного перевода потерпел фиаско. Вторая заключается в том, что даже люди – уж, казалось бы, знатоки грамматики родного языка! – не могут уловить смысл высказывания без кучи дополнительных знаний о мире, – и уж конечно никто пока не знает, как передать эти необходимые дополнительные знания компьютеру. Классическая головоломка, которую компьютер не в силах разрешить, – это правильно определить значения слов в предложениях: The pen is in the box и The box is in the pen. Чтобы их понять, нужно знать соотносительные размеры предметов в реальном мире (пенала и загона для овец соответственно), которые нельзя узнать с помощью словарных значений и синтаксических правил. В 1960 году выдающийся логик Йегошуа Бар-Хиллел, которого МТИ нанял специально для разработки FAHQT (fully automated high-quality translation), раздраженно объявил о своей капитуляции:

Я неоднократно пытался указать на иллюзорный характер идеального FAHQT даже в отношении механического определения синтаксической структуры заданного предложения на языке оригинала… В английском – как, думаю, и в любом другом естественном языке – есть совсем простые предложения, которые в определенном лингвистическом контексте были бы… однозначно переведены на другой язык любым, кто в достаточной степени владеет этими двумя языками, но я не знаю такой программы, которая позволила бы машине найти этот однозначный перевод, если не включить в нее совершенно произвольную, зависящую от ситуации процедуру…

Это заявление практически положило конец щедрому притоку грантов от различных фондов. Однако создание в 1957 году Европейского союза дало новый политический стимул – и новый источник финансирования – для разработки инструментов, создание которых Бар-Хиллел считал невозможным. Планка была несколько снижена: речь шла уже не о FAHQT, а о более реальных задачах. По мере увеличения мощности и уменьшения размеров компьютеров все проще становилось переложить на них обременительные для людей задания – например, проверку того, одинаково ли переведены термины на всем протяжении длинного документа. Компьютеры можно было использовать для составления и хранения не просто терминологических словарей, но и собраний переводов целых фраз и выражений. Началась эра не полностью автоматизированного перевода, а перевода с помощью компьютерных программ – так называемого CAT-инструментария (computer-aided translation). Частные компании занялись разработкой собственных систем, потому что, хотя самый большой спрос был со стороны международных организаций, таких как ЕС, CAT-инструментарий требовался и крупным производителям самолетов, автомобилей и других товаров, продающихся в разных странах.

С помощью CAT легче достичь хороших результатов, если на вход подаются тексты, написанные не на естественном живом языке, а на его ограниченном подмножестве. В руководстве по эксплуатации самолетов встречается лишь скромная часть всех английских выражений. Чтобы с помощью программы автоматического перевода изготовить версии этого руководства на сотне разных языках, эта программа не должна уметь переводить еще и ресторанные меню, тексты песен или светскую болтовню – достаточно ограничиться языком инструкций по эксплуатации самолетов. Один из способов достижения хороших результатов – предварительно отредактировать входной текст, сведя его к некоторым стандартным шаблонам, которые может обрабатывать компьютерная программа, а затем отредактировать перевод силами квалифицированных переводчиков, чтобы обеспечить осмысленность текста (с сохранением исходного смысла) на языке перевода. Другой вариант: обучить составителей руководств специальному ограниченному языку – так сказать, боинглишу – специально рассчитанному на устранение неоднозначности и подводных камней в инструкциях по эксплуатации самолетов. Именно эта практика получила всемирное распространение. В большинстве компаний, вышедших на международные рынки, выработан собственный стиль, призванный облегчить машинный перевод их материалов. От компьютеров, помогающих людям переводить, мы перешли на следующую ступень – к людям, помогающим переводить компьютерам. Это одна из особенностей переводов, которая показывает, что язык – вовсе не конструктор. Языки всегда можно ограничить и настроить так, чтобы они удовлетворяли потребности людей, даже если это означает втиснуть их в рамки текстов, пригодных для компьютерной обработки.

Человеческий перевод с помощью компьютеров и компьютерный перевод с помощью людей – это существенные достижения, без которых международные потоки товаров и информации последних десятилетий были бы далеко не так хорошо организованы. До недавнего времени они входили в арсенал лишь ограниченного круга профессиональных переводчиков. Одновременно, конечно, формировалось огромное количество переводных продуктов (переводов, сопоставленных своим оригиналам) в электронной форме. Изобретение и взрывной рост интернета с начала 1990-х сделал весь этот корпус текстов бесплатно доступным для каждого, у кого есть подключенный к интернету компьютер. И тут на арену вышел Гугл.

Используя программное обеспечение на базе математических моделей, исходно разработанных в 1980-х сотрудниками IBM, Гугл создал инструмент машинного перевода, отличный от всех остальных. В его основе не лежат интеллектуальные посылки Уивера, он не имеет отношения к интерлингве или инвариантным ядрам. Он вообще не работает со значениями. Google Translate (GT) не рассматривает высказывание как нечто подлежащее расшифровке, он просто предполагает, что такое уже говорилось ранее. С помощью огромных вычислительных мощностей он в мгновение ока перетряхивает интернет в поисках аналогичного выражения в корпусе параллельных текстов. Ему доступны все публикации ЕС с 1957 года на двух дюжинах языков, все, что ООН и ее подразделения когда-либо издавали на своих шести официальных языках, и несметное количество других материалов, включая протоколы международных трибуналов и отчеты компаний, а также статьи и книги в виде параллельных текстов, которые размещались в интернете библиотеками, продавцами книг, авторами, научными организациями и частными лицами. Опираясь на уже установленные в рамках миллионов параллельных текстов соответствия, GT с помощью статистических методов выбирает наиболее правдоподобные версии переводов из числа имеющихся. Чаще всего это срабатывает. Это совершенно удивительно. И именно достижения GT породили новую волну оптимизма в отношении FAHQT – голубой мечты Уивера.

GT не мог бы работать без очень большого корпуса уже существующих переводов. В его основе лежат миллионы часов труда переводчиков, создавших тексты, которые GT теперь просматривает. В рекламном ролике Гугла об этом ни слова. В настоящее время Гугл предлагает двусторонний перевод между пятьюдесятью восемью языками, то есть 3306 отдельных сервисов перевода – больше, чем когда-либо существовало за всю историю человечества. Бо́льшая часть этих языковых направлений – с исландского на фарси, с идиша на вьетнамский и десятки других – новшества, порожденные GT. Между этими языками переводов раньше не было, поэтому ни в интернете, ни еще где-либо нет соответствующих параллельных текстов. В презентации переводческих услуг Гугла отмечено, что, поскольку количество доступных для просмотра переводов с одного языка на другой существенно различается для разных пар, качество переводов в разных парах тоже разное. А вот то, что GT в такой же степени узник международных потоков переводов, как и все мы, там не упоминается. Его восхитительно искусная вероятностная компьютерная система может предложить 3306 направлений перевода только за счет привлечения средства, которое всегда применялось в международных коммуникациях: языка-посредника или промежуточного языка. И английский служит основным языком-посредником вовсе не потому, что штаб-квартира корпорации Google расположена в Калифорнии. Если вы используете статистические методы для установления наиболее вероятного соответствия между языками, перевод между которыми никогда не делался, вам нужен язык-посредник, у которого есть соответствия и с языком оригинала, и с языком перевода.

Кажется, что GT выравнивает и разнообразит межязыковые связи сверх всяких ожиданий. О таком не могли мечтать даже самые горячие поборники языкового равноправия из ЕС. Но делает он это лишь за счет эксплуатации, подтверждения и укрепления центральной роли, которую играет самый переводимый язык мира в международной электронной базе переводных текстов. И во всех СМИ это тоже самый единообразно переводимый язык.

Например, прорва английских детективов переведена, скажем, на исландский и на фарси. Это сразу дает обширный материал для установления соответствий между фразами этих двух языков; переводов персидской классики на исландский неизмеримо меньше, даже если учитывать те произведения, которые совершили свой путь посредством языка-посредника, например французского или немецкого. Это означает, что вклад Джона Гришэма в качество переводов между исландским и фарси несравнимо больше, чем вклад Халлдора Лакснесса или Джалаладдина Руми. А тайную способность Гарри Поттера поддерживать переводы между ивритом и китайским можно считать настоящей магией.

Переводы, порожденные самим GT, тоже распространяются в интернете и становятся частью просматриваемого GT корпуса, обеспечивая цикл, который подтверждает приемлемость предложенного GT перевода. Но механизм опирается и на переводчиков-людей, предлагая пользователям заменить перевод GT более подходящим – цикл, направленный в противоположную сторону, к совершенствованию. Это удивительно изощренная система. Я пользовался ею, чтобы проверить, правильно ли я понял, допустим, шведскую фразу. И она автоматически срабатывает для перевода веб-страниц во время поиска. Бесспорно, иной раз она выдает ерунду. Однако ерунда, порожденная машинным переводом, чаще всего не так опасна, как проколы живых переводчиков. Ошибки GT обычно бросаются в глаза, потому что из-за них перевод теряет смысл, и такой перевод вы просто игнорируете. (Вот почему не следует использовать GT для перевода на малознакомый язык. Переводите только на такие языки, в которых вы гарантированно заметите ерунду.) А вот люди обычно выдают беглый и осмысленный текст, поэтому их ошибки вы можете заметить, только если понимаете оригинал, а тогда вам и перевод ни к чему.

Если вы продолжаете считать, что язык состоит из слов и правил, на основании которых можно однозначно вычислять значение предложения (фантазия, за которую по-прежнему цепляются многие философы), то GT – это не инструмент перевода. Это просто фокус, выполняемый электронной махиной, которой позволено присваивать труд людей. Но если вы смотрите на вещи шире, то GT подразумевает нечто иное.

Устные переводчики часто заранее угадывают, что скажет докладчик, потому что выступающие на международных конференциях постоянно используют одни и те же стандартные фразы. Аналогичным образом и опытный письменный переводчик в знакомой области не задумываясь выдает перевод определенных оборотов. На еще более элементарном уровне каждый переводчик учитывает определенные переводческие трансформации между своими рабочими языками: например, французское безличное местоимение on почти всегда переводится на английский предложением с пассивным залогом; прилагательные, следующие за французским существительным, при переводе на английский оказываются впереди соответствующего существительного и так далее. Этот автоматизм приходит с практикой и опытом. Переводчики не изобретают велосипед ежедневно, им не нужно каждый раз заново выдумывать трансформацию французское on – английская пассивная конструкция. Скорее, они действуют как GT, быстро просматривая собственную память в поисках наиболее подходящего готового решения. Базовый алгоритм GT гораздо ближе к схеме работы профессионального переводчика, чем к медленному спуску в большой подвал чистого смысла, который воображали себе первые разработчики машинного перевода.

А еще GT развенчивает один из великих мифов современного языкознания. Утверждалось, и десятилетиями мало кто с этим спорил, что удивительным свойством естественного языка является его способность за счет лежащей в его основе структуры порождать из конечного множества слов и правил бесконечное множество предложений. Правда, отдельные остряки проводили параллель с британским автомобильным заводом, способным производить бесконечное множество автомобилей, в каждом из которых свой уникальный дефект, – но их сарказм не находил особого отклика за пределами Оксфорда. GT же, напротив, подходит к переводу не с позиции уникальности каждого предложения, а исходя из того, что скорее всего кто-то когда-то уже сказал нечто подобное. Что бы ни представлял собой язык в принципе, на практике он чаще всего используется для того, чтобы снова и снова повторять одно и то же. И это неудивительно. В большом подвале, лежащем в основе всей человеческой деятельности, включая речевое поведение, находится не абстрактное чистое значение, а обычные людские потребности и желания. Все языки обслуживают эти самые потребности и делают это одинаково хорошо. Если мы снова и снова говорим одно и то же, то это происходит потому, что у нас постоянно возникают одни и те же потребности, нас охватывают одни и те же страхи, желания и чувства. И в навыках переводчиков, и в базовом алгоритме GT отражается наша общая человеческая природа.

В сентябре 2009 года новая администрация Белого дома обнародовала план развития науки под названием «Стратегия американских инноваций». В последнем разделе этого документа ставится задача привлечь науку и технологии к достижению важнейших целей XXI века. Далее приводится с полдюжины примеров таких целей, включая «дешевые, как краска» солнечные батареи и «умные» протезы. В последней строке в ряду этих долгосрочных целей развития национальной науки фигурирует разработка «автоматического, в высшей степени точного, выполняемого в реальном режиме времени перевода между основными языками мира, позволяющего значительно снизить барьеры для международной торговли и сотрудничества». Не все цели научной политики достигнуты, но благодаря серьезной поддержке, которую теперь – впервые после 1960 года – вновь стала оказывать американская администрация, машинный перевод, весьма вероятно, далеко продвинется по сравнению с нынешним состоянием.

23 Приключения машинного перевода

23

Приключения машинного перевода