Глава пятая. Значения перевода
Всем известно, что американцы мало понимают в футболе. Во-первых, мы все еще называем его soccer. Во-вторых, многие американцы обращают внимание на самую популярную на свете игру только раз в четыре года, шумно поддерживая нашу сборную на чемпионате мира, а затем переключаются обратно на американский футбол, NASCAR и другие сугубо американские забавы. Когда же мы подключаемся, то ждем, что нам напомнят, что такое офсайд и в целом освежат в памяти ключевые игровые понятия.
Когда зрители во всем мире смотрели на удивление ровный матч между Бразилией и КНДР в самом начале чемпионата мира по футболу в Южной Африке в 2010 году, многие заметили баннер в руках бразильских болельщиков, на котором было написано: «Cala Boca Galvão». Те, кто во время просмотра матча привык строчить твиты, заметили, что тысячи бразильских болельщиков ретвитят эту фразу. Через четыре дня турнира, который длится целый месяц, Cala Boca Galvão вышел в топ трендов Twitter, состоящий из слов или фраз, которые чаще всего ретвитят пользователи сервиса по всему миру. Что это было – слова поддержки сборной Бразилии?
Twitter сообщил своим пользователям, что Cala Boca Galvão – популярный твит, однако это не помогло им понять значение этой фразы. К счастью, на помощь пришли бразильские пользователи сервиса. Они объяснили, что Galvão – это птица, оказавшаяся на грани исчезновения из-за того, что ее яркими перьями украшают головные уборы исполнительниц самбы, которые танцуют на карнавальных парадах. Для распространения информации о бедственном положении этого вида пернатых был создан Институт Galvão, и с каждого ретвита Cala Boca Galvão – «Спасите птицу Galvão», институт получает пожертвование в 10 центов. От имени Института Galvão на YouTube появился ролик на английском языке, в котором рассказывали о бедственном положении птицы Galvão и настоятельно призвали к участию в кампании Twitter под лозунгом: «Секундное дело сделать ретвит, секундное дело спасти жизнь».
Кампания набирала обороты. После того как на защиту птицы Galvão встали пользователи Twitter, за дело принялись знаменитости. Леди Гага, по слухам, собиралась выпустить сингл под названием Cala Boca Galvão, на YouTube появились десятки версий новой песни. Многие версии звучали как переделка ее же композиции «Alejandro», но были, как ни странно, и совершенно другие мелодии. Фонд птицы Galvão, дочерняя организация Института Galvão, раскрыл темную сторону этого вопроса, опубликовав фото тренера аргентинской сборной по футболу Диего Марадоны с торчащим из ноздри зеленым пером. Оказалось, что птиц истребляют еще из-за галлюциногенных свойств содержащегося в оперении вещества.
Для тех, кто еще не набрал эту фразу в Google-переводчике, 15 июня 2010 года газета New York Times раскрыла карты: Cala Boca Galvão переводится как «Заткнись, Гальвао». Карлос Эдуардо душ Сантуш Гальвао Буэно – ведущий футбольный комментатор телеканала Rede Globo, транслирующего игры Кубка мира в Бразилии. Его полная штампов и общих мест эфирная болтовня осточертела многим бразильским болельщикам, которые предпочли бы, чтобы он просто заткнулся. Фраза разошлась, когда тысячи бразильских болельщиков, смотря первые матчи турнира по Rede Globo, дали выход своему раздражению. Когда же фраза вошла в топ трендов Twitter, поддержание ее на пике популярности стало своеобразной игрой. Призывая ничего не подозревающих, благонамеренных иностранцев ретвитить эту фразу, сетевые бразильцы сыграли со всем остальным миром гигантскую шутку.
Из этой истории мы можем извлечь несколько уроков. Во-первых, когда эта история имела место, в Бразилии насчитывалось более пяти миллионов пользователей Twitter – это 11 % онлайн-населения страны, а теперь их еще больше. Во-вторых, по крайней мере некоторые из бразильских пользователей обладают специфическим чувством юмора. В ходе следующего воплощения мема Cala Boca людей призвали спасти кита Джейзи Арруда, то был ехидный намек на пышные формы бразильской девушки, исключенной из Университета Сан-Паулу за ношение мини-юбки. Однако самое важное для нашего разговора – это то, что в условиях глобализации языковые различия сохраняются и остаются препятствием для связности и взаимопонимания.
Взаимосвязанный мир – это многоязыкий мир. Доступ к мыслям, чувствам и мнениям людей по всему миру заметно расширяет наш понятийный и образовательный потенциал. Однако он же повышает вероятность неверного истолкования. Чем более связанными мы становимся, тем меньше разговоров, в которых мы можем поучаствовать, мы в состоянии понять без перевода.
Лингва франка?
По общепринятому мнению, английский язык становится «вторым языком всего мира», языком межнационального общения, который многие дальновидные организации уже используют в качестве рабочего. Энтузиасты распространения английского в качестве второго языка всего мира считают, что это будет способствовать взаимодействию и облегчит решение проблем, не угрожая выживанию местных языков. Указывая на сотни тысяч китайских детей, которые учатся английскому, хором повторяя за учителем заученные фразы, американский предприниматель Джей Уокер выдвигает гипотезу, что английский станет языком экономических возможностей для большинства: работать и думать они будут на родном языке, но английский позволит им общаться, делиться информацией и вести дела.
Занимающиеся сохранением культурного наследия организации, такие как ЮНЕСКО, не разделяют подобного энтузиазма. Они предупреждают, что английский может вытеснить менее распространенные языки, поскольку он транслируется по всему миру через телевидение, музыку и кино. Однако в действительности все еще более тонко и сложно. Пока английский становится языком международного общения, все больше массовой информации в газетах, на телевидении и в интернете производится на других языках. Технологии облегчили общение и тем, кто обращается к широкой аудитории, и тем, кто довольствуется ограниченным кругом говорящих на родном языке, что делает языковые различия удивительно стойким явлением.
Чтобы оценить перспективы языка во взаимосвязанном мире, мы задались вопросом: «Какой процент интернет-контента написан на английском языке?» Если забить этот вопрос в поисковик по-английски, то велика вероятность выйти на сайт EnglishEnglish.com, последний раз обновлявшийся в 2003 году. В разделе «Английский в цифрах и фактах» утверждается, что «80 % домашних страниц в сети написаны на английском, в то время как следующий самый большой сегмент – немецкий занимает лишь 4,5 % сети, а японский – 3,1 %». Источники этих сведений на сайте не указаны, однако они вполне согласуются с данными ранних исследований языкового разнообразия в интернете. В 1997 году Джеффри Нанберг и Хенрих Шутце опубликовали исследование, в котором количество сайтов Всемирной паутины с содержанием на английском языке оценивалось в 80 %. В исследовании 2003 года Online Computer Library Center (OCLC) оценивал количество англоязычного контента сети уже в 72 %.
Такие показатели привели исследователей к мысли, что в самом начале развития сети у английского была такая «фора», что другие языки вряд ли смогут его нагнать. С такой огромной базой англоязычных пользователей многие сайты будут публиковать информацию только на английском языке, иноязычные веб-пользователи будут вынуждены адаптироваться к условиям, улучшая свои языковые навыки, что, в свою очередь, лишь укрепит стимул публиковать все на английском. В 2001 году Нейл Гэндал из Университета Тель-Авива проанализировал использование сети в Квебеке и пришел к выводу, что 66 % своего времени в сети канадские франкофоны проводят на англоязычных веб-сайтах. Более того, молодые квебекцы чаще пользовались англоязычным контентом, чем их старшие сограждане, что позволяет сделать вывод о постепенном стирании языковых барьеров между пользователями сети. Учитывая, что франкоязычные квебекцы оказались готовы читать в сети по-английски, Гэндал утверждал, что разработчики веб-сайтов не станут тратить усилия на локализацию и это в будущем может привести к росту количества сайтов с контентом исключительно на английском языке.
И «факты» о состоящем на 70–80 % из англоязычных сайтов интернете, и теория стартового преимущества бытуют до сих пор, несмотря на доказательства, что языковой состав Всемирной паутины за последние десять лет резко изменился, поскольку расширились и сеть, и количество авторов, создающих контент. «Факт» же бытует до сих пор, в частности, потому, что невероятно трудно правдоподобно оценить уровень языкового разнообразия интернета. Авторы ранних исследований делали случайную выборку сайтов из произвольных IP-адресов, загружали страницу и, используя автоматические средства определения языка, выясняли, на каком наречии она написана. В сегодняшней ситуации, когда такие сайты, как Facebook, имея один IP-адрес, состоят из многоязычного контента, созданного более чем полумиллиардом пользователей, этот метод работает плохо. Новые методы используют поисковые системы для индексации веб-страниц, после чего пытаются оценить масштаб различных языковых сегментов на основе анализа частотности употребления слов на разных языках.
Альваро Бланко руководит фондом сетевого развития FUNREDES – базирующейся в Доминиканской Республике некоммерческой организацией, которая занимается технологиями в развивающихся странах и с помощью этих новых методов исследует языковое разнообразие в сети с 1996 года. Попробуйте сделать тот же поисковый запрос про англоязычный сегмент сети только на испанском или другом романском языке, и в топе выдачи, скорее всего, вы найдете его исследования. Его команда ищет «слова-концепты» на разных языках, сравнивая результаты по Monday (английский), Lunes (испанский) и Lundi (французский). В 1996 году его исследование показало, что интернет на 80 % состоит из контента на английском языке. В ходе последующих экспериментов этот показатель неуклонно падал, и в 2005 году объем англоязычного контента оценивался уже в 45 %.
Бланко продолжает свои исследования, но считает важным учитывать, что поисковики более не в состоянии выдавать репрезентативную выборку интернет-контента: «Twitter, Facebook, другие социальные сети – все это поисковики не могут индексировать в полном объеме». По оценкам Бланко, поисковые системы сейчас индексируют менее 30 % видимого интернета. Он также предполагает, что в выдаваемой выборке может обнаружиться перекос в сторону англоязычных сайтов – просто потому, что реклама на таких сайтах приносит больше прибыли. «Мое личное мнение, что английский сейчас составляет менее 40 % онлайн-контента», – говорит Бланко, уточняя, что для подтверждения этой догадки ему нужно усовершенствовать свой исследовательский метод.
Статистика использования интернета показывает значительно более быстрый рост в странах, где английский не является основным языком. В 1996 году более 80 % интернет-пользователей были носителями английского языка. К 2010 году этот показатель упал до 27,3 %. В то время как количество англоязычных интернет-пользователей с 2000 года увеличилось почти в три раза, в Китае сетью пользуется в 12 раз больше людей, чем в 1996-м. Еще более впечатляющие показатели роста в арабском мире, где сегодня в интернет заходит в 25 раз больше пользователей, чем в 1996 году.
Но и это не самое важное изменение. Когда Гэндал предрекал, что квебекские юзеры привыкнут пользоваться такими сайтами, как Amazon.com на английском, он не знал, что к 2010 году большинство пользователей сети будут не только потреблять контент, но и создавать его. Более половины 450-миллионной армии китайских интернет-пользователей регулярно используют платформу социальных СМИ, оставляют записи в блогах, размещают обновления на Renren (китайская версия Facebook) или статусы-сообщения в Sina Weibo – аналогичном Twitter сайте микроблогов. И подавляющее большинство этих обновлений пишется, конечно, не по-английски, а по-китайски.
Во время моей поездки в столицу Иордании Амман в июле 2005 года самым запоминающимся событием стал неторопливый ужин с десятком иорданских блогеров, за чьими сайтами я следил в преддверии путешествия. Посматривая с террасы ресторана на древние каменные дома района Джебель Амман, мы переговаривались то на английском, то на арабском. «Родной у вас у всех арабский, почему же вы ведете блоги на английском?» – спросил я. Ахмад Хамеид, талантливый дизайнер и ведущий блога 360° East, объяснил: «Я хочу, чтобы мой взгляд на Иорданию был доступен людям по всему миру, и значит, я должен писать по-английски. Кроме того, люди, которые читают только по-арабски, не читают блогов».
Спустя семь лет Ахмад по-прежнему ведет свой блог на английском, но многие ближневосточные блогеры последнего призыва пишут уже в первую очередь на арабском. У многоязычных пользователей с использованием родного языка связан некий переломный момент. До тех пор пока большинство вашей потенциальной аудитории не говорит на вашем родном языке, имеет смысл писать на втором, наиболее распространенном в мире, языке. Но по мере того, как в сети появляется все больше ваших соотечественников, ситуация меняется. Если вы хотите говорить с близкими, вы можете писать на одном языке. Если хотите привлечь более широкую аудиторию, можете использовать английский. Хейтам Саббах, неутомимый иордано-палестинский активист, который с 2005 по 2007 год работал редактором ближневосточного отделения Global Voices, сейчас пишет на английском, когда критикует американскую и израильскую политику на Ближнем Востоке, арабских же лидеров он распекает по-арабски, что делает его замечания менее доступными международной аудитории. Английский он использует для привлечения широкой аудитории, на арабском же обсуждает разногласия внутри арабского мира, чтобы «не выносить сор из избы».
Вероятно, квебекцы, ставшие предметом исследования Гэндала, действительно много читали по-английски, но это не означает, что это было их осознанное предпочтение. Так большинство из 50 миллионов индийских интернет-пользователей говорят по-английски, при этом исследование, проведенное индийской маркетинговой компанией JuxtConsult, показало, что почти три четверти из них предпочитают контент на родном языке. Учитывая эти предпочтения, Google предлагает интерфейсы своей поисковой системы на девяти наиболее распространенных в Индии языках, а в общей сложности – более чем на 120 языках мира. Поскольку сегодня в мире уже 68 языков, численность носителей которых превышает 10 миллионов человек, компаниям с глобальными амбициями в ближайшем будущем стоило бы задуматься о создании интерфейсов на таких языках, как тагалог и телугу.
Приступая к мониторингу блогов для публикации на Global Voices, мы с Ребеккой понимали, что перед нами встанут серьезные лингвистические вопросы и проблемы перевода. Мы наняли редакторов, свободно владеющих французским, арабским, русским, китайским и испанским, чтобы они переводили записи на английский для публикации на сайте. В те далекие дни мы даже не рассматривали возможность публикации нашего издания на других языках. Во-первых, перевод наших материалов на другие языки был бы непомерно дорогим, во-вторых, «рабочим языком» нашей команды редакторов и авторов был английский, поэтому каждый из нас мог прочесть и оценить наш продукт.
Но не прошло и года после старта нашего проекта, как Портной Чжэн, тайваньский студент, запустил китайскую версию на сайте Global Voices. Воспользовавшись тем, что Global Voices публикует все материалы по лицензии Creative Commons, Чжэн с друзьями стали переводить на китайский те истории из Global Voices, которые привлекли их внимание, и размещать их на своем сайте. После того как Портной принял наше предложение о преобразовании его сайта в официальную, размещенную на наших серверах, страницу ресурса Global Voices на китайском, нас с Ребеккой завалили просьбами о создании версий на других языках.
Какой смысл выпускать Global Voices на малагасийском языке, на котором редко говорят за пределами Мадагаскара, где лишь 1,5 % населения имеют доступ к интернету? Наши мадагаскарские авторы были обеспокоены, что их язык может так и остаться в аналоговом веке, не став частью цифрового. В школах обучение идет не на малагасийском, а на французском, который пользуется большим престижем, нежели язык коренных народов Мадагаскара. Наши авторы были готовы работать над публикацией издания ради будущего их языка. И хотя сами они свободно владеют тремя языками, они хотели расширить аудиторию Global Voices, а также поделиться своей работой с друзьями и близкими, которые не столь бегло читают по-английски или по-французски.
Наш малагасийский сайт теперь читает значительная часть интернет-сообщества Мадагаскара, более того, он помог нашей редакции, что называется, преклонить колено перед значимостью языка. Сегодня в составе нашей редакции переводчиков, которые занимаются тем, что делают наш контент доступным более чем на 30 языках, больше чем авторов оригинальных текстов, а все вместе иноязычные страницы нашего ресурса привлекают не меньше посетителей, чем наш англоязычный сайт.
В 2010 году члены нашего сообщества инициировали еще одно изменение в редакционной политике Global Voices: они попросили разрешения публиковать оригинальный контент на французском, испанском и других языках. Для нашей редакции – это некоторое затруднение. Практически все участники проекта говорят на нескольких языках, однако брать на себя ответственность за посты, написанные на недоступных ей языках, нашему главному редактору не улыбается. После долгих дебатов мы пришли к консенсусу, и теперь в нашем многоязычном пресс-центре на английский переводятся материалы, написанные на более чем 10 языках. Бывает, это создает некоторые неудобства: просматривая наши серверы, я иногда обнаруживаю, что самый популярный (и часто наиболее спорный) материал на сайте опубликован на языке, который я читаю с большим трудом; и чтобы уяснить, что же такое печатает наша команда, мне приходится ждать, пока будет готов перевод. Однако это, безусловно, был верный ход. Наша аудитория франкоязычных стран Африки за последние годы значительно расширилась благодаря тому, что франкоязычные авторы теперь могут писать на родном языке, рассчитывая на сообщество переводчиков, которые сделают их материалы доступными на английском.
Язык как инструмент
Чтобы понять, почему нашим волонтерам так важно писать на родном языке, а также почему все больше веб-пользователей по всему миру будут создавать все больше контента на родных языках, попробуем рассмотреть язык как технологию, инструмент, созданный людьми для решения самого широкого спектра задач. Когда мы только начинаем использовать любой новый инструмент, будь то отвертка, автомобиль или компьютер, мы, как правило, четко понимаем, что это – инструмент, осознаем сложности его использования, его возможности и ограничения. По мере того как мы овладеваем инструментом, он становится для нас все более и более прозрачным.
В своей книге «Исчезновение технологии» крупный специалист по теории информации Чип Брюс отмечает, что при высокой степени владения инструментом мы просто перестаем его замечать: «Вы можете сказать: “Я сегодня разговаривал со своим другом”, не чувствуя необходимости упомянуть, что беседа осуществлялась посредством телефона». (Или, если уж на то пошло – посредством языка: «Сегодня я разговаривал со своим другом, используя слова английского языка».) В такой незаметности есть свои преимущества. Концентрируясь больше на цели, которую мы пытаемся достичь, чем на применяемых при этом инструментах, мы используем их более эффективно. Но эта же незаметность позволяет легко забывать перекосы, связанные с употреблением инструмента. Есть места, куда легче добраться пешком, чем на машине, и есть сведения, которые легче найти в библиотеке, чем в интернете. Как один из наиболее распространенных и мощных используемых нами инструментов, язык ежедневно создает препятствия на пути получения сведений, которые мы находим или не можем найти.
Тем, для кого английский не является родным, языковые перекосы в интернет-пространстве очевидны. Задача по освоению нового инструмента часто осложняется тем, что и интерфейс, и инструкции – на незнакомом языке. Чтобы добиться беглости в чтении и понимании – то есть чтобы технология стала незаметной, – необходимо время и серьезные усилия. А если вы хотите написать в интернете на таком языке, как хинди, нужно сначала установить новый шрифт и драйвер, позволяющий печатать соответствующие символы на английской клавиатуре. Процесс этот настолько сложный и путаный, что многие носители хинди используют Quillpad – программу, транслитерирующую написанные английскими символами слова в деванагари. Учитывая все барьеры на пути создания контента, резкий рост его объема на таких языках, как хинди, позволяет сделать вывод о значимости контента на родных языках и для читающих, и для пишущих.
Тем из нас, для кого английский – родной, необходимо учитывать те же факторы, но с другой стороны. Мы можем рассчитывать, что рано или поздно наиболее важный контент появится на нашем родном языке. Однако для такой уверенности становится все меньше оснований. Каждый день количество информации, доступной через широковещательные или сетевые СМИ, увеличивается, а доля сведений, доступных на английском, снижается. В то же время представленность таких языков, как арабский, китайский и хинди, в интернете растет.
«Википедия» – достойнейший проект коллективно написанной энциклопедии – почти с самого начала была многоязычной; через два месяца после запуска первой английской версии проекта, в январе 2001 года, появились немецкое и каталонское издания энциклопедии. Отказавшись от идеи создания основной версии энциклопедии на одном языке с последующим переводом на другие, основатели «Википедии» поняли, что совместно созданные материалы энциклопедии нужно записывать на разных языках, чтобы статьи отражали местные приоритеты.
Сложилась определенная экосистема, в которой многие национальные «Википедии» имеют ядро статей, существующих и на других языках, плюс множество уникальных статей. Объемные и хорошо подготовленные статьи о Чарльзе Дарвине есть и в английской, и во французской «Википедиях», однако социолог Поль-Анри Шомбар де Лов (которого мы еще встретим в главе 7) считает достойной только французскую статью. Когда мы ищем информацию, выходящую за пределы базовых вопросов и понятий, обозначенных на многих языках, использование одного языка становится барьером. Проведенное в 2008 году исследование английской, французской, немецкой и испанской «Википедий» показало, что из 2,4 миллиона статей английской версии с французской, состоящей из 700 тысяч статей, совпадает лишь 350 тысяч; это означает, что половина статей на французском языке не доступна англоязычным читателями, а более пяти шестых англоязычной «Википедии» закрыты для франкофонов. Получается, что для людей, которые говорят только по-английски или по-французски, многие сведения остаются недоступны.
Использование информации на недоступных нам языках может привести также к непониманию и неправильной интерпретации. В январе 2010 года компания Google сообщила, что ее серверы подвергаются постоянным кибератакам китайских хакеров, которые ищут доступ к корпоративным секретам, а также личным учетным записям электронной почты правозащитников. 18 февраля 2010 года New York Times опубликовала материал Джона Маркова и Дэвида Барбоза, в котором предполагалось, что следы кибератак ведут к двум китайским учебным заведениям: элитарному Шанхайскому университету и куда менее известному профессионально-техническому училищу Ланьсян. В статье Ланьсян описывается как технический колледж, тесно связанный с китайской армией, а также сообщается, что хакеры учатся под руководством некоего украинского профессора информатики. В той или иной форме эту версию перепечатали более 800 англоязычных новостных ресурсов, хотя исследование, проведенное Джонатаном Стрэйем для Лаборатории журналистики Нимана, обнаружило, что лишь в 13 из этих материалов новость опубликована в первоначальном виде.
История привлекла внимание китайских читателей, и, хотя вовлеченность Шанхайского университета Джао Тонг китайские журналисты сочли возможным, участие в подобных атаках училища Ланьсян вызвало большие сомнения. Рекламные ролики училища на ночных каналах транслируются под слоганом «Хотите научиться работать на экскаваторе? Приходите к нам в Ланьсян», а его выпускники получают дипломы специалистов по ремонту автомобилей и лицензии водителей грузовиков. Репортеры из Qilu Evening News, правительственной газеты с тиражом более миллиона экземпляров, посетили Ланьсян вскоре после публикации New York Times и сообщили, что в училище нет ни одного украинского профессора, связи с военными ограничиваются тем, что его выпускники ремонтируют армейские грузовики, а компьютерное обучение по программе сведено к работе в текстовых редакторах и самых базовых программах редактирования изображений. Авторы статьи иронизировали над доверчивостью репортеров New York Times и подытоживали, что среди китайских пользователей сети широкое распространение получил анекдот: «Хотите стать хакером? Приходите в училище Ланьсян в провинции Шаньдун, Китай».
Понятно, что англоязычные новостные ресурсы не смогли послать своих корреспондентов в Ланьсян проверить информацию Times. Понятно также, что сотрудники большинства освещающих Китай ресурсов не в состоянии читать материалы крупнейших китайских газет, и это вызывает серьезную озабоченность. Однако не прошло и суток после публикации, как материал Qilu был переведен на английский язык и размещен на EastSouthWestNorth – сайте, который ведет признанный переводчик с китайского на английский Роланд Сун. И хотя на сайт Суна ежедневно заходят многие представители англоязычного мира, следящие за китайскими СМИ, журналисты, освещающие эти события, не обратили внимания на материал газеты Qilu. Из всего этого можно сделать вывод, что даже при наличии перевода важного материала его легко пропустить, если он не лежит на привычных нам путях поиска информации, не оказывается у нас в почте и не выскакивает в поисковых системах, как местный новостной сайт.
Авторы New York Times, по-видимому, допустили ошибку потому, что их источники предоставили им неточную информацию. Другие англоязычные издания исказили историю, потому что не смогли или попросту не посчитали нужным прочесть, как те же события описываются в китайской прессе. Мы по-прежнему далеки от ситуации, когда англоговорящие журналисты в равной степени использовали бы китайские и английские источники для разносторонней оценки и максимально полноценного отражения событий в Китае.
Краткая история машинного перевода
7 января 1954 года представители команды Джорджтаунского университета и IBM провели в нью-йоркской штаб-квартире компании демонстрацию замечательного устройства – компьютерной системы, которая переводила русские предложения на английский язык. На следующий день Роберт Пламб писал в New York Times:
«Девушка-оператор набирает на клавиатуре следующий русский текст английскими буквами: “Mi pyeryedayem mislyi posryedstvom ryechi”. Машина практически сразу печатает перевод: “We transmit thoughts by means of speech”. Оператор, не владеющая русским, снова печатает лишенные (для нее) смысла русские слова: “Vyelyichyina ugla opryedyelyayetsya otnoshyenyiyem dlyini dugi k radyiusu”. И машина переводит: “Magnitude of angle is determined by the relation of length of arc to radius”».
И пусть словарный запас разработанной Джорджтаунским университетом и IBM программы составлял всего 250 слов и знали они лишь шесть грамматических правил, все равно это был технический триумф. Тем более что память компьютера, на котором она работала, – IBM 701 – не превышала 36Кб, а писать ее пришлось на ассемблере системному программисту IBM Питеру Шеридану. Поскольку программировать на IBM 701 было совсем не просто, Шеридан начал с создания прототипа программы: он собрал не знающих русского добровольцев и раздал им словарные карточки и собственные инструкции на английском языке. Задача волонтеров была сначала найти каждому английскому слову подходящий русский перевод, а затем, пользуясь инструкциями Шеридана, вычленить корень слова, выбрать верное окончание или изменить их порядок в предложении.
Если масштаб состоявшейся в 1954 году демонстрации был весьма скромным – машинный перевод составил 60 тщательно отобранных предложений, то амбиции разработчиков скромными никак не назовешь. Профессор Леон Достерт, разработавший языковую модель, столь кропотливо запрограммированную Шериданом, отметил, что, если сегодня «у нас еще нет возможности загрузить русскую книгу на одном конце и получить английский перевод на другом», в будущем «через пять лет, а может быть три года, межъязыковое преобразование смыслов посредством электронных процессов в важных функциональных областях нескольких языков вполне может стать свершившимся фактом». Для создания таких программ, считал Достерт, потребуется словарь в 20 тысяч слов и 100 грамматических правил – по сути, нужно было лишь расширить продемонстрированный уже прототип.
Прогноз Достерта сегодня может показаться смехотворно оптимистичным, но система, над которой он размышлял, разрабатывалась для перевода научных журналов, а не Толстого или Пушкина. Достерт знал, что словарные системы перевода сталкиваются с серьезными проблемами из-за лингвистической неоднозначности, потому что естественный человеческий язык чрезвычайно неоднозначен. Во многих языках есть омонимы – слова с одинаковым написанием, но разными значениями, нередко встречается также полисемия – когда слово может иметь близкие, но все же различные значения в зависимости от контекста: «Отложив ручку, она протянула ручку и дернула за дверную ручку». Еще более сложные явления, такие как метафора, аллегория или каламбур, переносят задачу на еще более высокий уровень; простым подыскиванием слов в словаре и расстановкой их в грамматически правильном порядке такие задачи не решаются.
Когда переводчик решает, как перевести слово «ручка», то, прочитав и поняв фразу, он выбирает соответствующее слово на языке перевода на основе контекста, в котором это слово было использовано. На испытаниях 1954 года большинство предложений были из области физики и химии – и потому, что разработанная Джорджтаунским университетом и IBM программа должна была переводить научную литературу, и потому, что в контексте научной литературы степень неоднозначности некоторых из используемых терминов заметно снижается.
Чтобы решить проблему контекста и найти способ переводить слово «ручка» правильно, более современные системы перевода пользуются не словарями и грамматическими правилами, но статистическими и вероятностными моделями. Такие системы основываются на громадных объемах текста, так называемых корпусах. Большинство систем используют два корпуса. Первый – это набор предложений на языке перевода, позволяющий программистам разрабатывать «языковую модель». Анализируя это собрание предложений, языковая модель «понимает», что фраза «the blue car» в английском встречается чаще, чем «the car blue», и, выбирая между возможными вариантами перевода, предпочитает грамматически верный не потому, что знает правила грамматики, а потому, что этот вариант является наиболее распространенным. Второй корпус – это собрание предложений, которые были переведены людьми с одного языка на другой, с помощью этого корпуса создается «модель перевода». Модель перевода сообщает, что «el coche azul» чаще всего переводится с испанского как «синий автомобиль», хотя иногда встречается и вариант «авто цвета лазури». Так перевод нового текста становится цепью обоснованных догадок, когда модель перевода подбирает возможные эквиваленты предложения, а языковая модель стремится обеспечить грамматическую верность и читаемость.
Этот метод – статистический машинный перевод – стал возможен только в конце 1980-х. До тех пор компьютерам просто не хватало мощности для работы с огромными объемами данных, необходимыми для построения работающих моделей языка. Если для программы Джорджтаунского университета и IBM использование словаря в 250 слов было амбициозной задачей, корпус, который Google использует в качестве модели английского языка, состоит более чем из 95 миллиардов английских предложений. Учитывая объем данных, необходимых для эффективного использования этого метода, преимущество в их создании получили поисковые системы. Сам процесс индексирования сети предоставляет прекрасную возможность расширения языковых моделей. Однако даже такая система, как Google-переводчик, часто оказывается в рамках необходимости искать заслуживающие доверия параллельные корпусы текстов, а также фразы, переведенные на один или несколько языков.
Найти параллельный корпус совсем непросто, поскольку выполненный профессионалами высококлассный перевод (традиционно) стоит немалых денег. А работоспособность подобных систем обеспечивается их громадными размерами. Составленный Консорциумом лингвистических данных параллельный корпус для перевода между английским и китайским языками включает 200 миллионов слов, что много больше, чем в каждом из этих языков, однако для эффективной работы слова должны быть употреблены в самых разных контекстах. Многие тексты, которые мы могли бы использовать, как, например, переводы романов Стивена Кинга на десятки иностранных языков, остаются для нас недоступны из-за авторских прав. В поисках высококачественных переводных текстов в свободном доступе программисты часто используют правительственные документы: официальные резолюции ООН, переведенные на шесть рабочих языков организации; заседания Европейского парламента, в которых используются документы, переведенные на 23 официальных языка; постановления Канадского правительства, публикующиеся как на английском, так и на французском.
Поскольку процесс статистического машинного перевода – это, по сути, выбор наиболее вероятного перевода из набора примеров, использование таких источников приводит к возникновению забавных побочных эффектов: в машинном переводе мы все немного смахиваем на европейских парламентариев. Действительно, такие системы, как правило, куда лучше справляются с переводом официальных документов, чем с переложением полных сленга и жаргонных словечек мгновенных сообщений.
Так почему же американские и европейские репортеры и «факт-чекеры» не прочли с помощью машинного перевода материал Qilu Evening News, чтобы получить более полное представление о профессионально-техническом училище Ланьсян? Вероятно, отчасти в силу привычки. Долгие годы системы машинного перевода выдавали неудобоваримые, малоосмысленные результаты, и у журналистов развилось стойкое предубеждение против их использования. Однако за последние пять лет качество машинного перевода между китайским и английским резко возросло. Программисты оценивают качество машинного перевода, сравнивая его с работой профессиональных переводчиков. Такое сравнение легло в основу системы оценки качества машинного перевода – Bilingual Evaluation Understudy или BLEU, которая анализирует машинный перевод, подсчитывая количество тех же слов, расставленных в том же порядке, что и в работе профессионального переводчика. Когда специалисты Google решают, что оценка BLEU для новой пары языков (английский/китайский, например) достаточно высока, компания включает пару в набор инструментов Google, доступных бесплатно на translate.google.com. За шесть лет, с 2006 по 2011 год, этот порог преодолели 60 языковых пар.
Машинный перевод материала Qilu Evening News может произвести на журналистов неоднозначное впечатление. Я перевел эту статью с помощью сервиса Google и получил, в частности, следующий результат:
«Школы Директор Бюро Г-н Чжоу не встретиться с нашим корреспондентом. Он только сказал, по телефону:… “Эти отчеты нонсенс измышления. Несколько дней назад, говорящих на китайском языке позвонила женщина под предлогом задавать вопросы о студенческих регистрации она не выявила себя. Мы учим в основном технического обслуживания автотранспорта, ремонт, и некоторые из этих студентов в конечном итоге присоединились к военным, чтобы сохранить ремонт транспортных средств. Он также сказал, что есть украинский профессорско-преподавательского здесь. Это нелепо. Наша школа не имеет зарубежных преподавателей. Мы не лицензированы на привлечение иностранной учит. Кроме того, мы не снижаться, чтобы ответить на вопрос о том, было украинского учителя здесь – она просто никогда не просил”».
Этот текст можно с грехом пополам разобрать, но читать его совсем непросто. Едва ли кто-нибудь сочтет, что это написано носителем английского языка. Цепкий и принципиальный репортер мог найти статью Qilu в переводе и использовать ее в продолжение своей истории. Но чтобы всякий англоговорящий, старающийся следить за китайскими событиями, ежедневно читал Qilu Evening News с помощью машинного перевода – это маловероятно. Кроме того, даже цепкий репортер мог бы не совсем верно понять прочитанную статью.
Когда IBM и Джорджтаунский университет начали программу перевода русских текстов, их цель состояла в том, чтобы создать систему, которая позволит автоматизировать часть работы по переводу статей научных журналов. При этом все понимали, что, прежде чем представлять их американским ученым, эти переводы нужно будет довести до ума вручную. В начале 1970-х годов программа забуксовала, а государственные спонсоры отвернулись от автоматического машинного перевода и сосредоточились на создании инструментов, которые могли бы повысить эффективность труда профессиональных переводчиков; то есть программах типа «запоминаем перевод», в которых сохраняется переработанная переводчиком сложная фраза, чтобы потом он или его коллеги могли к ней вернуться. Целью государственных структур США стало повышение эффективности живых переводчиков, а не совершенствование автоматизированного перевода.
Научная гонка между СССР и США уже не имеет того политического значения, как в 1950-х. Пережив холодную войну, мы вошли в эпоху сложного, многополярного мира, и теперь аудитория международных СМИ в правительстве США – это разведывательные структуры, в частности Центр открытых источников – подразделение ЦРУ, в котором глобальные события пытаются анализировать, читая местные газеты на пуштунском, азербайджанском и многих других языках. Газеты типа Baku Xalq QƏzeti для аналитиков ЦРУ переводят люди. Эти переводы широкой публике… почти доступны. Незасекреченные переведенные материалы, которые в настоящее время включают в себя посты в блогах, Twitter и на других платформах, министерство торговли США предлагает под маркой World News Connection. Переводы, в совокупности составляющие самую международную газету из известных человечеству, доступны подписчикам за 300 долларов в год, плюс четыре доллара за каждую статью из архива.
Неудивительно, что подписчиков у World News Connection не так уж много: во-первых, это дорого, а во-вторых, большинство читателей, даже среди самых страстных поклонников Азербайджана, не станут изучать все материалы всех бакинских газет. Такие переводчики, как Роланд Сун, который перевел статью Qilu Evening News, ценны не только потому, что производят легко усваиваемый текст, но и потому, что действуют как фильтры, выбирая для перевода материалы, которые могут показаться интересными более широкой аудитории.
Роланд Сун и будущее перевода
Профессиональный исследователь СМИ Сун изучал размер и демографию массовой аудитории СМИ по всему миру и в 2003 году переехал из Нью-Йорка в Гонконг, чтобы проводить больше времени со своей престарелой матерью. Оказавшись в среде китайскоязычных СМИ, Сун почувствовал необходимость разобраться и быстро обнаружил, что китайскоговорящие и англоговорящие читатели получают разные новости.
«Многое из того, что интересно китайцам, в западных СМИ отфильтровывается или упрощается по различным причинам (культурные барьеры, потребности целевой аудитории, пространство, политическая предвзятость и т. д.). И вот я стал выискивать наиболее интересные материалы на китайском и переводить их на английский с тем, чтобы владеющие только английским читатели могли лучше понять различные проблемы и контекст, в котором они возникают».
Сун размещает эти переводы на веб-сайте EastSouthWest-North, за скромным дизайном которого прячется весьма богатое содержание. На главной странице ESWN содержание разбито на три колонки новостей: Мировые, Большого Китая (на английском), Большого Китая (на китайском). В левой колонке появляются работы комментаторов и ученых, следящих за ситуацией в Китае и высказывающихся по более широким вопросам, в правой размещаются ссылки на материалы китайских СМИ, привлекшие наибольшее внимание в Китае. В средней колонке – наиболее заметны плоды тяжких трудов переводчика. Сун выбирает из китайских публикаций и переводит на английский язык несколько статей в день, иногда по тысяче слов, ежедневно уделяя этой работе от 30 минут до шести часов.
Причины, по которым он решает перевести ту или иную публикацию, могут варьироваться, но общий принцип работы таков: это материалы, имеющие важное значение для китайских читателей, но незаметные для остального мира.
«Это может быть история, за которой следит почти вся страна, но за пределами Китая о ней и не слышали. Причины могут быть культурные, политические (несоответствие западным представлениям), или материал может быть просто слишком сложным для восприятия, но я берусь его переводить, если считаю, что он рассказывает людям о том, что важно в Китае…Это может быть продолжение истории, которая сперва появилась в западных СМИ, однако последовавшие события уже не получили огласки на Западе. Сегодня информация имеет широкое распространение, однако многие материалы требуют доказательств, которые можно найти, только проведя расследование. Однако люди не любят, когда им говорят, что их с самого начала ввели в заблуждение».
Из разговоров с Суном становится ясно, что представление о далеком Китае, изолированном от остального мира «Великой информационной стеной», до обидного примитивно. Да, китайские цензоры вполне эффективно предотвращают распространение новостей о таких событиях, как политические выступления в Тунисе и Египте в начале 2011 года. Но куда больше усилий цензоры тратят на пресечение известий о коррупции в одной части огромной страны из-за опасений, что такие новости могут вызывать публичные демонстрации. Переводя эти истории на английский, Сун дает международным журналистам возможность разъяснять проблемы власти и управления в Китае своей аудитории…а иногда и китайским читателям.
Сун был одним из немногих источников информации на английском языке о волне протестов, которые в августе 2005 года начались в деревне Тайши, провинция Гуанчжоу. Попытка смещения коррумпированного председателя поселкового комитета Чена Джиншенга привела к голодовкам, сидячим забастовкам, арестам и жестокому избиению активиста Лю Бангли. Впоследствии на подавление 2 075 крестьян деревни был выслан отряд полиции специального назначения в тысячу бойцов. Весь сентябрь китайские СМИ широко освещали эту историю, а Сун переводил значительную часть этих статей. В начале октября события в Тайши стали широко освещаться в азиатских газетах, таких как South China Morning Post, однако крупнейшие американские издания о них по-прежнему молчали. Все изменилось, когда журналист Guardian Бенджамин Йоффе-Уолт отправился в Тайши вместе с Лу и, уже отправив репортаж, был задержан местными властями. Йоффе-Уолт передал сенсационный рассказ о том, как Лу подвергся избиению, и Guardian был вынужден дополнить ранее присланную статью. Непростая история Йоффе-Уолта и задержание Лу привлекли к себе внимание, и о двухмесячных протестах в Тайши узнали американские и британские читатели.
В то время как бесчисленные американские комментаторы, и в первую очередь госсекретарь США Хиллари Клинтон, критиковали «информационную стену» и осуждали китайскую цензуру, мало кто обращал внимание на то, что в неподцензурных китайских новостях есть масса потенциально важной информации, которая никогда не доходит до англоговорящей аудитории. Подцензурная китайская пресса публиковала немало сведений о Тайши, по крайней мере на ранней стадии протестов. Сун перевел колонку из «Жэньминь жибао», официального печатного органа Коммунистической партии Китая, автор которой поддержал протест. «Это сродни официальному благословению центральным правительством», – пояснил читателям Сун. История Тайши – это жизнеутверждающий первый акт про вызов, брошенный работящими крестьянами, и печальный второй акт про государственное подавление протестов. Кроме того, это интересный и показательный пример происходящих в Китае перемен. Тот факт, что о Тайши почти ничего не знают за пределами Китая, говорит о недостатках западных СМИ больше, чем о китайской цензуре.
Устремление Суна раскрыть для международной аудитории важные для Китая проблемы приобрело сторонников. «Такие блоги, как ChinaSMACK и ChinaHush, освещают социальные проблемы, которыми я раньше много занимался», – говорит Сун, отмечая, что это дает ему возможность сосредоточиться на наиболее важных для него темах: точности публикуемых в СМИ сведений, проблемах этики и манипулирования общественным мнением. Его сайт продолжает ежедневно публиковать переводы статей объемом в тысячи слов.
В деле расширения доступа глобальной аудитории к СМИ на китайском к Суну присоединились и другие ресурсы. Tea Leaf Nation – это электронный журнал, который делают три друга, познакомившиеся в Гарварде: два китайца и один американец, выучивший китайский, работая волонтером Корпуса мира. Они переводят на английский связанные с политикой материалы из социальных медиа. Эллен Ли и Кейси Лау делают Weibo Today – еженедельный видеожурнал в YouTube, рассказывающий о последних трендах в китайских платформах микроблогов или weibos. Однако переводчиков на китайский, которые делают доступным англоязычный сегмент интернета более чем для 400-миллионной сетевой аудитории Китая по-прежнему несравнимо больше, чем перечисленных нами энтузиастов.
Интернет-предприниматель Чжан Лэй начал переводить статьи с английского на китайский по весьма личной причине: в 1996 году, когда Чжан приехал на учебу в Соединенные Штаты, его отец умер от лимфомы. «С тех пор я стал периодически отслеживать материалы об этой болезни и на китайском и английском языках, – говорит Чжан. – Больше всего меня поразило, что в английской литературе лимфома рассматривалась как болезнь излечимая, однако китайским пациентам это чрезвычайно важное обстоятельство было неизвестно. Это и побудило меня обсудить с друзьями возможные пути решения этой проблемы».
Вдохновясь такими проектами, как «Википедия», Чжан и двое его друзей принялись за создание портала совместной работы над переводами. В 2006 году был запущен Yeeyan – сайт группового перевода, и на фоне роста напряженности в отношениях между США и Китаем, предшествовавшей Олимпийским играм 2008 года, популярность ресурса заметно выросла. Наблюдая за американскими СМИ, китайские новости в которых не выходили за рамки строительства стадионов, проблем с правами человека в Китае и столкновений между уйгурами и китайской армией в Урумчи, западной части Китая, Чжан разглядел вполне конкретные причины, по которым китайские и американские читатели не понимают друг друга.
«Четкого плана у меня не было, – признался Чжан, выступая на конференции, посвященной исследованию китайского интернета, проводившейся в Университете Пенсильвании в 2009 году. – Но я знал, что мы можем переводить тексты». На сайте Yeeyan числится более 210 тысяч зарегистрированных переводчиков-волонтеров, они трудятся над переводом ключевых материалов англоязычной прессы на китайский язык. Все вместе они переводят в среднем тысячу публикаций в неделю. Содержание может варьироваться, но, как правило, на Yeeyan.org ежедневно публикуются переводы материалов крупных газет, таких как Guardian или New York Times, еженедельных новостных журналов Time или Newsweek (над еженедельным переводом материалов журнала Economist трудится Ecoteam – не связанная с Yeeyan команда волонтеров) и ведущих сайтов – таких как ReadWriteWeb. Не так давно они взялись за перевод книг; так, после землетрясения в провинции Сычуань в 2008 году команда Yeeyan перевела «Руководство по поиску и спасению во время землетрясений» и «Руководство по безопасности во время землетрясений» Федерального агентства по чрезвычайным ситуациям США. По инициативе Чжана группа также перевела книгу под названием «Первые шаги в борьбе с лимфомой», которую скачали уже более 100 тысяч китайских читателей.
В долгосрочной перспективе Yeeyan, вероятно, столкнется со сложными вопросами авторского права, так как некоторые переведенные Yeeyan авторы не желают, чтоб их произведения публиковались на китайском, особенно если контент через Yeeyan начинает распространяться по китайским газетам и веб-сайтам. Однако есть и издатели, принявшие проект с распростертыми объятиями. В 2009 году Guardian начал давать ссылку на страницу Yeeyan как на свою официальную китайскую версию, впрочем, вскоре газета была вынуждена прекратить сотрудничество.
Однако главным препятствием в работе Yeeyan на сегодня является не проблема авторских прав, а цензура. В отличие от Суна, который переводит на английский язык статьи, уже опубликованные в Китае, некоторые из англоязычных источников Yeeyan регулярно блокируются в Китае. В декабре 2009 года правительственные чиновники закрыли сайт, обеспокоенные тем, что переводчики размещали контент, нарушающий местные законы. Законы эти быстро меняются и часто неоднозначны, однако их соблюдение – необходимое условие существования китайских медиакомпаний. В ходе непростых дебатов Чжан и его команда решили привести Yeeyan в соответствии с требованиями местной самоцензуры. Теперь команда просматривает переводы и отказывает в публикации материалам, которые могут привести к блокировке проекта. «Мы лично связываемся с нашими переводчиками, когда по тем или иным причинам их работа не может быть опубликована. Переводы сохраняются в качестве проекта на личной страничке переводчика. Такое положение, к сожалению, де-факто стало стандартным для сайтов ПК[пользовательского контента], работающих в Китае, поэтому было принято и членами нашего сообщества», – объясняет Чжан.
Какое бы воодушевление ни вызывал Yeeyan, успех проекта наводит и на грустные размышления: почему до сих пор не существует эквивалента такого портала на английском? 210 тысяч добровольцев считают, что китайским читателям важно знать, о чем говорят англоязычные СМИ, и эти добровольцы тратят собственное время на преодоление языкового барьера. Еще тысячи людей участвуют в более развлекательных проектах: переводят и снабжают субтитрами англоязычные фильмы и телевизионные шоу, размещая их на таких сайтах, как Yyets. com. Трудно поверить, что китайский сегмент интернета, примерно половина из более 400 миллионов пользователей которого активно пользуются платформами блогов или микроблогов, производит так мало контента, что все потенциально интересные англоязычной аудитории материалы может перевести Роланд Сун и несколько десятков других переводчиков.
Конечно, Yeeyan имеет преимущество над сходными англоязычными проектами, поскольку многие университеты в Китае требуют владения английским для получения диплома, значительно расширяя круг потенциальных переводчиков. Однако таких масштабных проектов, как Yeeyan, в Соединенных Штатах нет и на испанском, хотя многие школьники учат его в старших классах, более того, значительная часть населения США считает испанский родным языком и создает контент именно на испанском.
Удивляющую многих готовность переводчиков Yeeyan работать над проектом без финансового вознаграждения исчерпывающе объясняют специалисты, изучающие программное обеспечение с открытым исходным кодом и «Википедию». Обладающие большим опытом переводчики еще могут заработать себе на жизнь переводами в интернете, но куда больше тех, кто зарабатывает несколько центов, время от времени получая заказы через сетевые биржи труда, подобные запущенному компанией Amazon порталу Mechanical Turk. Для переводчиков Yeeyan, это скорее любимое хобби, нежели работа. Чжан говорит, что проявился и ряд других мотивирующих факторов. Переводчикам нужен опыт, который они могли бы применить уже на хорошо оплачиваемых работах. Кроме того, признание со стороны профессионального сообщества, чувство удовлетворения от профессионального роста и удовольствие от материала – все это хорошая мотивация. То есть в совместных переводческих проектах действует та же мотивация, что позволяет существовать и развиваться таким общественным инициативам, как программное обеспечение с открытым исходным кодом и «Википедия». Это культура дара, в которой чем лучше дар, чем полезнее перевод, тем выше статус. То есть положение утверждается актами дарения. В своем основополагающем труде «Сетевое богатство» Йохай Бенклер обозначил это явление как «состязательное дарение – то есть дарение, цель которого – показать, что человек, дающий больше, обладает более высоким статусом, нежели тот, кто дал меньше».
Многие сообщества, добившиеся успехов на поприще онлайн-переводов, используют схожие модели. Аудитория конференций TED – Technology, Education, Design, – попасть на которые раньше можно было только по приглашению, значительно расширилась, выйдя за пределы тех нескольких тысяч энтузиастов, что предпочитают посещать их лично в Монтерее, штат Калифорния, когда в 2006 году медиапродюсер TED Джун Коэн начала публиковать видео лекций в интернете. Спустя три года после размещения первого видео, Джун осознала, что лекции были бы интересны еще большей аудитории, если бы слушатели могли смотреть их с субтитрами на родном языке. Тогда она наняла фирму, делающую высококачественную стенограмму англоязычных лекций, и профессиональных переводчиков для создания субтитров на тагальском или турецком языках.
Вдохновившись в том числе успехом нашего ресурса Global Voices, который использовал добровольцев для перевода интернет-контента, Джун решила провести эксперимент: для перевода одних текстов она пригласила волонтеров, другие заказала профессиональным переводчикам, чтобы установить высокую планку качества. «Выяснилось, что качество переводов, сделанных волонтерами, ничуть не хуже, а то и лучше тех, что сделаны за деньги», – говорит Джун. «Мы были поражены». Переводчики TED не получают денежной компенсации за свою работу, однако их деятельность высоко оценивается сообществом, на сайте их имена стоят рядом с именами самих лекторов, а самых плодовитых и успешных переводчиков приглашают на конференции лично. Джун считает, что успех переводческого проекта имеет две основные причины: признание сообществом важности этой работы, и то обстоятельство, что переводчики сами могут выбрать материал для работы. «Перевод доклада, который вам интересен, – почти развлечение, скучный перевод – работа». Получается, что модель перевода на общественных началах лучше всего работает, когда цель – это работа над самым захватывающим материалом, а не перевод всего объема текстов.
Объемы волонтерского перевода уже весьма внушительны. Более чем часовую лекцию Альберта Гора о глобальном потеплении 2008 года перевели на 36 языков, а запись посмотрело 1,5 млн зрителей. За два года проекта переводчики TED сделали 18 000 переводов на 81 язык. В среднем лекция переводится на 24 языка в течение нескольких недель. Неанглийскими субтитрами пользуется лишь около 10 % зрителей TED.com, тем не менее это больше миллиона зрителей в месяц. Более того TED сотрудничает с Youku, китайским конкурентом YouTube, чтобы с китайскими субтитрами лекции TED могли посмотреть еще миллионы зрителей.
Добровольческие программы перевода – орудие мощное, но не быстрое. С их помощью говорящие на арабском смогут понять англоязычную лекцию, но им приходится ждать по несколько дней, а то и недель, пока арабский переводчик выполнит свою задачу. Кроме того, даже просмотрев лекцию с переводом, они не успевают участвовать в онлайн-дискуссиях, которые разворачиваются вскоре после размещения новых лекций на сайте. По-настоящему нам нужны переводы, которые, были бы такими же точными и передающими все оттенки, как те, что делают волонтеры TED или Global Voices, и производились бы так же быстро, как в Google-переводчике.
Проект Эда Байса Meedan.net – это онлайн-пространство, где арабские и англоязычные пользователи собираются в общей языковой среде, создаваемой как с помощью машинного, так и традиционного перевода. Слово «Meedan» по-арабски означает «городская площадь», и авторы проекта пытаются создать сетевое общественное пространство, где люди могли бы беседовать между собой на английском и арабском языках. Размещенные на сайте новостные материалы из онлайн-источников автоматически переводятся с арабского на английский и наоборот с помощью машинного перевода. Комментарии к новости можно писать на обоих языках, поскольку после отправки они также переводятся автоматически. При этом машинный перевод в сообществе Meedan считают лишь первым шагом; добровольцы просматривают новости и комментарии и «подчищают», а когда нужно, полностью переделывают уже опубликованный машинный перевод. Машинный перевод позволяет носителям разных языков поддерживать разговор в режиме реального времени. Традиционный перевод делает разговор более понятным, кроме того, создается постоянная запись беседы, которую впредь можно использовать как онлайн-ресурс.
Замысел Байса расширить арабо-англоязычный диалог с помощью перевода весьма амбициозен, однако и он бледнеет на фоне планов Луиса фон Ана, создателя платформы Duolingo. Фон Ан является профессором Университета Карнеги—Меллон иэкспертом в новой области «коллективно-распределенного мышления». Распределенное мышление использует навыки тысяч людей, работающих параллельно над решением проблем, непосильных компьютерам. Наибольшую известность фон Ан приобрел благодаря внедрению формы reCAPTCHA, которую вам, вероятнее всего, приходилось заполнять, чтобы оставить комментарий на веб-сайтах. Для заполнения формы вам нужно расшифровать два слова и таким образом продемонстрировать, что вы человек, а не компьютерная программа. В процессе вы помогаете расшифровывать сканы книг, каждый раз распознавая одно слово. В 2008 году объем текстов, расшифрованных с помощью reCAPTCHA, равнялся примерно 160 книгам в день, а сейчас используется для исправления ошибок в Google Books – крупнейшем проекте Google по сканированию основных университетских библиотек.
Если люди могут расшифровать нечетко отсканированные слова и транскрибировать книги, почему нельзя использовать этот ресурс для перевода документов? Фон Ан поставил перед своим аспирантом Северином Хакером вопрос: «Как нам привлечь 100 миллионов человек к переводу веб-страниц на все ведущие языки, да еще и бесплатно?» Так они придумали проект, который помогает миллионам людей в изучении второго языка. Зарегистрируйтесь на Duolingo, и вам предложат учить испанский, французский или немецкий. Сначала вы будете переводить простые, шаблонные предложения, но по мере повышения вашего языкового уровня вам начнут давать на перевод предложения с действующих веб-страниц.
Можно ли доверить человеку, только начавшему изучать испанский язык, переводить веб-страницы? Придуманные фон Аном алгоритмы помогают объединить варианты десятков неопытных переводчиков в результат, который, как он утверждает, не уступает по качеству работе профессионального переводчика. Его преимущество в масштабе: ежедневно 30 миллионов пользователей помогают решать поставленные перед reCAPTCHA задачи. Фон Ан убежден, что, даже если небольшой процент этих пользователей решит выучить новый язык, он сможет перевести все материалы английской «Википедии» на испанский менее чем за неделю.
Что значит цифровое вымирание?
В то время как Yeeyan и TED доказывают, что добровольцы могут производить высококачественный перевод газетных статей и научных лекций, а Meedan предлагает сочетание машинного и традиционного перевода для общения в реальном времени на разных языках, по-настоящему впечатляющих результатов можно добиться, лишь совместив эти методы. Для качественного машинного перевода программистам необходим большой корпус переведенного между двумя языками материала. Если объем текста, переведенного на платформах Global Voices или TED, на сегодня составляет лишь небольшую часть корпуса, необходимого для построения системы статистического машинного перевода, сотрудничество между переводческим сообществом и специалистами по машинному переводу может привести к созданию таких корпусов там, где другие варианты отсутствуют. Четыре тысячи произведенных силами Global Voices малагасийских переводов общим объемом в 300 тысяч слов составляют всего лишь 1,2 % от размера корпуса текстов Европарламента (один из основных источников параллельных корпусов текстов, состоящий из разнообразных документов парламентского делопроизводства), и, вероятно, это слишком мало для создания точной системы машинного перевода. С другой стороны, это, пожалуй, самый большой из существующих корпусов переводных текстов с английского на малагасийский и обратно.
Амбициозные планы Google проиндексировать и выложить в открытый доступ все знания мира предполагают, что компания должна серьезно отнестись ко всем существующим корпусам текстов на африканских языках. Для устойчивого международного роста эта громадная поисковая система должна поставлять услуги сотням миллионов людей, для которых английский, французский или португальский – второй язык. По словам Дениса Гикунда, отвечающего в компании за сегмент африканских языков, в будущем Google планирует переложить переводческие сервисы, интерфейс и содержание более чем на 100 африканских языков, число носителей которых составляет не менее миллиона. Среди них и меру – родной язык Гикунда, на котором говорят в районе горы Кения. Пока же Google делает упор на более массовые языки – суахили, амхарский, волоф, хауса, африкаанс, зулу, сетсвана и сомали, на каждом из которых говорит по меньшей мере десять миллионов человек.
Чтобы Google-переводчик или другой сервис работал с малагасийским языком нескольких сотен страниц, переведенных с английского или французского на малагасийский, недостаточно; чтобы построить «модель малагасийского языка» нужны громадные объемы данных! Иными словами, для того, чтобы малагасийский можно было переводить с помощью статистического машинного перевода, необходим онлайн-доступ к большим объемам текстов на малагасийском. Это составляет серьезную проблему. Рассмотрим «Википедию» на малагасийском: в ней около 25 тысяч статей. Таким образом, по количеству материалов это 75-я «Википедия» в мире и вторая среди африканских языков. Многие из потенциальных участников проекта – хорошо образованные мадагаскарцы, которые также свободно говорят по-французски. Французская «Википедия» в 50 раз больше малагасийской, ее и читает значительно более широкая аудитория. Если автор «Википедии» хочет, чтобы его материал прочитали и оценили, он, вероятнее всего, напишет его по-французски.
Лова Ракотомалала, один из авторов малагасийской «Википедии», объясняет эту «уловку-22»: «Мне кажется, что причина, по которой люди не пользуются “Википедией” (на малых языках), – это порочный круг. Люди не хотят создавать контент, потому что его никто не читает, и никто не читает, потому контента мало». Подобно иорданским блогерам, писавшим на английском, чтобы выйти на глобальную аудиторию, мадагаскарцы предпочитают писать по-французски по многим причинам. Но если они не будут писать на родном языке, то не наступит и переломный момент, случившийся в арабской блогосфере.
Положение было бы еще менее обнадеживающим, если бы Ракотомалала не занимался планомерным увеличением доступного в интернете малагасийского контента как через «Википедию», так и в рамках Global Voices, где он стал основателем нашей малагасийской версии. Однако его комментарий помогает выявить сложные вопросы вокруг перспектив многоязычного интернета. Чем больше носителей будет писать в интернете по-малагасийски, тем больше мадагаскарцев будут создавать контент на родном языке. Чем больше в сети контента, в особенности переводного, тем выше вероятность того, что Google и другие сервисы смогут создать системы машинного перевода, что, в свою очередь, означает, что контент, доступный только на малагасийском, смогут читать люди, не знающие этого языка.
Если же мадагаскарцы предпочтут в расчете на более широкую аудиторию создавать контент на французском, вероятнее всего, возникнет другая проблема. Такие разросшиеся проекты, как французская «Википедия», уже достигли «зрелости»; там уже так много статей, что опытные редакторы отклоняют по крайней мере столько же новых статей, сколько принимают. Статьи о важных аспектах географии Мадагаскара, его фауны и культуры могут быть чрезвычайно важными для его жителей, но оказаться недостаточно «значимыми» для включения во французскую «Википедию». Сведения о местных реалиях – очевидный кандидат в малагасийскую «Википедию», в более широкой, более глобальной «Википедии» та же информация может показаться недостаточно важной для отдельной статьи.
Наличие или отсутствие статьи на «Википедии» едва ли может служить иллюстрацией культурного кризиса. Однако вымирание языков заслуживает нашего особого внимания. Антрополог Уэйд Дэвис отмечает, что половину из шести тысяч мировых языков больше не преподают в школах. Большинство таких языков умрут вместе с последними носителями. Люди, которым небезразлична проблема исчезновения языков, опасаются, что культурно доминирующие соседи вытеснят малые языки. Многие из пяти миллионов, говорящих на языке майя, нередко владеют испанским, одним из мировых языков. Несложно представить, что носители языка майя, решат, что говорить в основном по-испански экономически выгоднее, и тогда язык майя начнет постепенно исчезать.
Рассматриваемые здесь случаи обозначают влияние, которое цифровой мир может оказать на исчезновение языков. Если у носителей не будет стимула для создания контента на родном языке, нам не хватит сетевого материала для построения моделей перевода. Сетевые фрагменты на малагасийском или языке майя окажутся в изоляции, будучи доступны только носителям языка и невидимы для всех остальных. Мы можем оказаться перед лицом волны цифрового вымирания языков, ситуации, при которой одни языки достаточно представлены в интернете, чтобы сохранить языковую общность и разработать систему машинного перевода, а другие окажутся за этим порогом и не смогут оставить значительный след в сети.
Прозрачный перевод
Сама возможность переводить тексты с помощью автоматизированных систем или переводчиков-волонтеров не гарантирует того, что мы эти переводы когда-нибудь обнаружим. Перевод Роланда Суна статьи Qilu Evening News об училище Ланьсян был доступен в интернете, но журналисты, пишущие о китайских хакерах, не смогли ее найти. Поиск стал настолько важным механизмом, что для многих из нас информации, которой нет в первой выборке поисковой системы, просто не существует. Для преодоления языкового барьера недостаточно просто сделать перевод доступным. Для этого необходимо сделать язык прозрачным.
В кризисные моменты нам часто приходится вспоминать, каким высоким может быть языковой барьер. Когда в начале 2011 года по Тунису, Египту, а затем большей части стран Северной Африки и Ближнего Востока прокатилась волна народных протестов, миллионы заинтересованных читателей стали использовать Twitter для получения новостей и комментариев в режиме реального времени. Самые интересные посты в Twitter были не на английском, а на арабском языке. Такие выдающиеся журналисты, как Дима Хатиб, начальник бюро телеканала «Аль-Джазира» в Латинской Америке, в режиме реального времени переводили размещенные на арабском твиты на английский и испанский языки, значительно расширяя таким образом аудиторию этих сообщений.
Энди Карвин, главный специалист NPR по вопросам стратегии в социальных медиа, отложив другие дела, все первые месяцы 2011 года посвятил освещению этих событий с помощью интернет-СМИ. Обращаясь к читателям своего Twitter, он нередко просил помочь перевести лозунг, который кричали на площади Тахрир, или твит тунисского диссидента. Поскольку за его Twitter следит более 25 тысяч пользователей во всем мире, переводы нередко приходили спустя буквально несколько секунд, и тогда Карвин немедленно делал репост перевода. Дэнни О’Брайен, вместе с Комитетом по защите журналистов выступающий за свободу слова в сети, автоматизировал процесс, создав простой инструмент – расширение браузера, которое рядом с каждым твитом помещает кнопку «перевести», что позволяет заинтересованному пользователю быстро прочитать машинный перевод поста на непонятном ему языке.
Методы Карвина и О’Брайена действенны, если у нас есть мотивация искать записи на других языках. Однако мы по-прежнему предпочитаем подписываться на Twitter тех, кто говорит на понятном нам языке. До тех пор пока язык не станет абсолютно прозрачным, именно язык будет формировать круг тех, кого мы слушаем, и тех, чей голос игнорируем.
Google предпринимает шаги к повышению уровня прозрачности перевода во всех своих продуктах. Когда вы загружаете страницу в веб-браузере Google Chrome, программа пытается определить, на каком языке написана страница, и, если это не тот язык, который вы используете по умолчанию, предлагает машинный перевод содержания. Вы можете отключить эту функцию, согласиться на предложенный перевод или настроить Chrome так, чтобы он всегда переводил определенный иноязычный контент на ваш родной язык. Я настроил Chrome, чтобы страницы на китайском, японском и арабском по умолчанию отображались у меня на английском, и обнаружил, что больше не тянусь к кнопке «Назад» в своем браузере, когда сбиваюсь с удобного пути англоязычных страниц. Предлагаемые переводы бывает трудно прочесть, но, по крайней мере, я получаю представление о тематике материала и могу понять, стоит ли просить знакомых полиглотов сделать более читаемый перевод. Сервис Gmail компании Google работает аналогичным образом, предлагая перевести письмо, если оно написано на непонятном вам языке.
На этом пути Google сталкивается с более крупной проблемой. Чтобы язык перестал быть основной преградой, перевод должен работать не только в браузере, но и в поисковой системе. Когда мы ищем информацию через поисковые системы, мы получаем результаты на языке запроса. Забейте в строку поиска Google в Соединенных Штатах «apple», и ваши результаты будут заметно отличаться от тех, которые вы получили бы вписав то же слово по-испански «manzana» на Google.mx. Это, конечно, имеет смысл, поскольку многие пользователи Google в Соединенных Штатах хотят получать результаты на английском. В то же время такое положение ограничивает круг доступной информации.
Исполнительный директор Global Voices Иван Сигал серьезно увлекается велосипедным спортом. Когда он купил подержанную, сделанную вручную, раму велосипеда малоизвестной немецкой марки под названием Technobull, которая к тому времени уже прекратила свое существование, он сразу захотел узнать больше о своем новом приобретении и о людях, которые ездят на велосипедах той же марки. Поиск на Google.com не дал практически ничего: несколько десятков страниц на английском, где бренд описывался как элитный и дорогой, и одну страницу фотографий на Flickr. Тогда он зашел на Google.de и обнаружил тысячи страниц, в том числе действующий форум велосипедистов-фанатов Technobull. Иван немного говорит по-немецки, и некоторые велосипедисты оказались готовы помочь и ответить на его вопросы. Однако необходимая Ивану информация была на немецком, а не на английском, а Google.com оказался не в состоянии помочь ему найти то, что нужно.
Директор по продуктам Google Анджали Джоши работает над тем, чтобы язык перестал быть непреодолимым препятствием на пути обмена знаниями. «Человек в Корее или любой другой части мира должен иметь доступ ко всей информации в интернете на своем языке, так, чтобы это легко читалось, было понятно и удобно для поиска». Это задача помасштабнее, чем поиск по запросу «яблоко» на английском, испанском и корейском языках: «В итоге мы хотим, чтобы люди могли общаться друг с другом, чтобы их высказывания плавно преодолевали языковые барьеры и в устной, и в письменной речи».
Несмотря на стремительный прогресс Google в области перевода, им еще предстоит долгий путь. (Google-переводчик может переводить с английского на 60 языков и обратно. Однако при переводе, к примеру, с исландского на идиш текст сперва переводится на английский.) «Для достижения этой цели нам нужно пройти три ступени, – говорит Джоши. – В первую очередь нам нужен безупречный машинный перевод. Кроме того, нам нужен поисковик, дающий одинаково хорошие результаты на всех языках». Иными словами, нам нужны алгоритмы поиска, которые смогут решить, какой из вариантов поиска даст наилучшие результаты – перевод испаноязычной страницы про «manzanas» или выдача англоязычной страницы про «apples».
Коллегам Джоши, сидящим с нами в комнате для совещаний в Маунтин-Вью, как будто немного не по себе от масштаба проблем, которые ставит перед ними шеф. Джоши же откидывается на спинку стула и объявляет третью ступень. «Когда мы сможем искать на всех языках и пользоваться безупречным переводом, любой человек будет иметь доступ к тому, что ему действительно нужно. И наступит нирвана».
Полагаю, Джоши отчасти права. Даже при наличии идеального, многоязычного поиска мы столкнемся с еще одной проблемой: понимание последствий и важности того, что нам говорят. Чтобы получить информацию из различных частей мира, нам нужно нечто большее, чем безупречный перевод: мы должны понимать контекст того, что нам говорят. Путь к нирване неблизкий, и на этом пути нам нужны проводники, которые помогут нам понять контекст обнаруженных сведений.