21 Прикладная лингвистика.
Компьютерная лингвистика

На протяжении всей книги речь постоянно заходила о прикладной деятельности лингвистов. В том числе уже отмечалось, что в своих истоках все лингвистические традиции были ориентированы на прикладное использование: прежде всего на обучение языку культуры, а также на правильное построение ритуальных текстов, стихосложение и другое. Но и, казалось бы, чисто теоретическое исследование может иметь прикладное применение. Уже упоминавшийся пример — фонология как база для конструирования алфавитов, что в условиях СССР 1920–1930-х гг. имело важное практическое значение.

Некоторые практические задачи языкознания существовали всегда и сохраняют свое значение и теперь. Прежде всего это задача обучения языкам в разных вариантах: языкам культуры, нормативным вариантам материнского языка или иностранным языкам. Методика обучения языкам — давно сложившаяся и имеющая значительные традиции прикладная дисциплина. Необходимо назвать и составление словарей и практических грамматик, которые могут быть не только учебными, но и справочными.

Однако в конце XIX в. и еще больше в XX в. прикладная деятельность лингвистов и ученых смежных специальностей (например, психологов и физиологов речи) значительно расширилась, и это расширение продолжается. В разных главах книги говорилось о конструировании алфавитов, лечении речевых расстройств, методах речевого воздействия, в том числе в пропаганде и рекламе, и др. Некоторые виды этой деятельности существовали давно, но развивались стихийно. Теперь же они получили научную базу.

Заметно расширились прикладные фонетические исследования. Если Реформатский в 1970 г. среди областей практического применения фонетики упоминал лишь технику связи, то в наши дни разрабатываются многие виды речевых технологий. Вот перечень некоторых из них в уже упоминавшемся учебнике Кодзасова и Кривновой: «…создание человеко-машинных интерфейсов с устным вводом / выводом информации; речевое управление компьютером и другими техническими устройствами… организация информационно-справочной службы, позволяющей получать и выдавать различную информацию из базы данных в условиях, когда вопрос задается голосом… создание устройств для приема и озвучивания различных сообщений… многоязычный устный ввод / вывод речевой информации с автоматическим переводом; разработка приспособлений и компьютерных систем для помощи инвалидам… создание "автоматической машинистки"… озвучивание корректур и исправление орфографических ошибок; помощь в обучении иностранному языку (автоматические фонетические тренажеры)». Если для конструирования алфавитов классической фонологии было достаточно, то перечисленные задачи могут решаться лишь на основе экспериментальных методов.

Но особое значение с середины ХХ в. получили разного рода прикладные исследования, так или иначе связанные с общением человека и вычислительной машины. Данная область исследований получила название компьютерной, или вычислительной, лингвистики. Самая известная даже среди неспециалистов, хотя далеко не самая массовая область работ такого рода — создание систем автоматического (машинного) перевода.

Уже вскоре после появления в 1940-е гг. электронно-вычислительной техники начались первые попытки такого рода. Впервые эксперимент в этой области состоялся в США в 1954 г. и охватывал 250 слов, а в СССР его провели годом позже. Поначалу задача автоматического перевода рассматривалась как в основном техническая, в США она разрабатывалась инженерами без участия лингвистов, но затем выяснилось, что их привлечение также необходимо. В нашей стране лингвисты, в том числе Мельчук, участвовали в разработках с самого начала.

В 1950-х гг. и начале 1960-х гг. исследователи еще не представляли себе всей сложности задачи. Казалось, что достаточно ввести в машинную память двуязычный словарь, и машина сможет каждому слову на входе приписывать на выходе его переводной эквивалент. То есть системы производили пословный перевод. Однако выяснилось, что таким образом нужные практические результаты не могут быть получены прежде всего из-за проблемы неоднозначности реальных предложений любого языка. Уже на морфологическом уровне, например, в русском языке мы видим значительную омонимию. Форма двери может быть формой пяти падежей: родительного, дательного, предложного падежей единственного числа, именительного, винительного падежа множественного числа. Разумеется, носители языка снимают омонимию благодаря контексту, но машина этого сделать не может, если ей не задать алгоритм морфологического анализа. Еще больше неоднозначности в синтаксисе. Разработчики первых советских систем машинного перевода приводили такую фразу с несколькими видами неоднозначности: Недовольство рабочих бригад вызвало осуждение товарища Иванова. Или вот строка из стихотворения: Педагог в руках с указкой. Взрослый носитель языка даже при нестандартном порядке слов поймет, что речь идет об учителе, который держит указку. Но возможно и другое прочтение, более соответствующее порядку слов: некто держит учителя и указку. Но это заметит разве что ребенок, у которого еще не выработался автоматизм синтаксического анализа. А как это распознавать машине? Оказался необходимым и синтаксический анализ. А многие случаи требовали и обращения к семантике.

К 1960-м гг. выяснилось, что помимо собственно перевода необходимыми процедурами являются механизмы анализа исходного языка и синтеза языка, на который осуществляется перевод. Механизмы анализа и синтеза могут не быть жестко привязаны к одной конкретной системе и использоваться для разных систем, в которых участвует данный язык. Между структурами входного и выходного языков в систему включался так называемый язык-посредник, на который после анализа переписывался входной язык и с которого затем проводилась запись на выходной язык. Такие системы назывались системами второго поколения.

В отличие от грубых систем пословного перевода, мало связанных с собственно наукой о языке, разработка анализа и синтеза требовала решения многих теоретических вопросов лингвистики. Выше уже не раз говорилось о том, что начало второй половины ХХ в. проходило в лингвистике (структурной, затем генеративной) под знаком формализации и математизации. Научные поиски, связанные с формальной лингвистикой, стимулировались прикладными задачами. При разработке систем машинного перевода постоянно оказывалось, что достигнутый к тому времени уровень формализации недостаточен для эффективного машинного анализа и синтеза, а это требовало разрабатывать и лингвистические проблемы. При этом уровень теоретичности в США и СССР был неодинаков. Американские лингвисты, вместе с инженерами занимавшиеся машинным переводом, не отличались интересом к разработке лингвистической теории. Чаще лингвисты старались применить на практике влиятельные теоретические идеи, однако, несмотря на огромное влияние идей Хомского, они почти ничего не дали для машинного перевода и других областей компьютерной лингвистики. Больше для этого оказались пригодны концепции лингвистов, работавших вне хомскианской парадигмы, таких как Чарльз Филлмор (1926–2014). В СССР ситуация была иной: Мельчук, Апресян и другие лингвисты-теоретики активно занимались машинным переводом и прочими прикладными проблемами, между направлениями их деятельности была двусторонняя связь.

Первая половина 1960-х гг. была периодом больших ожиданий в отношении автоматического перевода, что нашло отражение даже в художественной литературе. Вот ранняя повесть братьев Стругацких «Попытка к бегству» (1962), где люди из коммунистического общества XXIII в., один из которых лингвист, попадают на чужую планету, и перед ними встает проблема общения с инопланетянами, которую лингвист, разумеется, успешно решает. Ему удается произвести дешифровку и разработать систему машинного перевода на язык внеземной цивилизации и наоборот. Разумеется, было естественно полагать, что деятельность, казавшаяся реализуемой в ближайшем будущем, через три столетия станет рутиной.

В действительности всё оказалось сложнее. В 1966 г. в США пришли к выводу о том, что существовавшие к тому времени системы машинного перевода не оправдали надежд, а обычный ручной перевод оставался дешевле машинного. После этого государственное финансирование данных работ было свернуто, хотя частные кампании его могли и продолжать, поскольку многие заказчики при очень большом объеме технической документации были заинтересованы в любых способах поиска информации, даже низкого качества. В СССР же развитие исследований продолжалось, и с 1970-х гг. начали работать промышленные системы машинного перевода. Часть из них не пережила кризис 1990-х гг., но некоторые системы разрабатываются десятилетиями, как система японско-русского перевода под руководством Зои Михайловны Шаляпиной в Институте востоковедения РАН.

Всё же современные исследователи вынуждены признать, что первоначальные надежды оказались завышенными. Разумеется, никто не ставит вопрос об автоматическом переводе художественных текстов, но и соответствующий перевод научно-технических текстов пока что за редчайшими исключениями не может осуществляться без непосредственного участия человека, хотя бы на уровне предредактирования и постредактирования. О состоянии машинного перевода (МП) пишет автор учебника «Введение в прикладную лингвистику» Анатолий Николаевич Баранов: «В настоящее время системы МП успешно функционируют в тех областях, где либо не требуется абсолютная точность перевода, либо существуют серьезные ограничения на использование структур естественного языка, где входной язык нормирован и упрощен». Используются либо системы, где не требуется высокое качество перевода, либо, если такое качество необходимо (например, при переводе официальных документов), возрастает роль этапа постредактирования. Чуть ли не единственной целиком автоматизированной системой является канадская система, переводящая тексты метеосводок с английского языка на французский; здесь перевод происходит в рамках очень сильно стандартизированного подъязыка.

Предполагалось, что с 1970-х гг. появятся системы третьего поколения, где будет не только производиться морфологический и синтаксический анализ и синтез (эта проблема более или менее решалась уже во втором поколении), но и вступят в действие семантические компоненты, в конечном итоге являющиеся главными. Надеялись на создание универсального семантического языка-посредника; если бы он был создан, то получилось бы что-то вроде универсальной логической структуры в «Грамматике Пор-Рояля» XVII в. или глубинной структуры у Хомского. Но такого языка нет и сейчас, а проблема неоднозначности решена лишь частично, поскольку она в значительной степени является семантической.

Однако компьютерная лингвистика отнюдь не сводится к трудной и лишь частично решенной проблеме машинного перевода. Здесь на полюсе, связанном с максимальной сложностью объекта, находится машинный перевод, однако далеко не всегда нам для практических нужд необходимо анализировать и переводить весь текст. На другом полюсе находятся значительно более простые и вполне решаемые проблемы, например когда нужно из большого массива текстов выбрать те тексты, в которых содержатся интересующие нас ключевые слова. В промежутке между двумя полюсами имеются системы, решающие разные другие практические задачи, не охватывающие систему языка в целом. Обычно в таких случаях говорят об информационно-поисковых системах (ИПС). Такие системы в больших количествах создавались в советских ведомственных НИИ в 1960–1980-е гг.

Эти системы так или иначе связаны с обработкой массивов текстов на естественном языке. В них не ставится задача сохранения всей имеющейся в текстах информации. Тем или иным способом осуществляется ее редукция, позволяющая найти во множестве документов то, что соответствует данному запросу. В том числе такие системы на основе заданных параметров обеспечивают составление рефератов и аннотаций обрабатываемых документов. Документы могут описываться на особом формальном информационно-поисковом языке; составляется словарь дескрипторов — слов, обозначающих категории и понятия области, в которой ведется поиск. На основе этого словаря информационная система должна выделить среди обрабатываемых текстов те, которые имеют запрашиваемое содержание. Более простые системы только выделяют нужную лексику, но в других системах может в определенных пределах проводиться и грамматический анализ.

Наряду с прикладными направлениями, сложившимися в рамках формальной лингвистики, большое место в последние десятилетия занимают и направления работ, связанные с функционализмом. Среди них надо особо выделить корпусную лингвистику.

Как определяют создатели Национального корпуса русского языка (НКРЯ), лингвистический корпус — это «информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов». Такого рода представления, конечно, создавались и раньше, прежде всего при составлении словарей. Известны огромные картотеки, вручную формировавшиеся десятилетиями на основе расписки большого количества текстов. Но теперь они создаются в электронном виде и постоянно пополняются.

Впервые лингвистический корпус был создан в США в 1960-е гг. Первые корпуса были невелики по объему, стандартом считался объем в миллион слов, что было недостаточно. Значительное развитие корпусная лингвистика получила с 1980-х гг. в связи с дальнейшим развитием вычислительной техники. В настоящее время НКРЯ (формируется с начала 2000-х гг.) содержит более 600 млн словоупотреблений, и эта цифра постоянно растет. Важна представительность и сбалансированность корпуса, в который должны включаться не только письменные, но и устные тексты. Конечно, наряду с корпусами, представляющими язык в целом, распространены и корпуса, специализированные для какой-то его части; корпуса могут отражать лишь современный язык, но могут, как НКРЯ, включать в себя и тексты на протяжении того или иного периода времени. Наряду с одноязычными корпусами существуют и многоязычные.

Корпус — не то же самое, что просто электронное собрание текстов большого объема. При его создании необходимо провести ряд операций, именуемых разметкой. Нужно разделить тексты на слова, привести каждое слово к его словарной форме, провести морфологический, синтаксический, акцентологический анализ. Серьезную проблему составляет то, что при обширном объеме корпуса в ответ на запрос может быть выдано столь большое число в основном ненужной информации, что ее невозможно охватить. Поэтому нужны также системы группировки поиска.

Данные корпусов могут использоваться в самых разных областях лингвистики. Если раньше для получения нужной информации лингвист должен был самостоятельно расписывать значительное количество текстов при отсутствии гарантии того, что удастся найти то, что нужно, то теперь всё можно узнать очень быстро. С помощью корпуса можно получить достоверные данные статистического характера. Материалы корпуса, сгруппированные по времени создания текстов, дают сведения об исторических изменениях в языке. Корпуса используются и в педагогических целях, на них все больше ориентируются учебные программы. Выдающийся американский лингвист Чарльз Филлмор писал: «Работа с любым корпусом, каким бы малым он ни был, предоставляла мне данные, которые я не смог бы найти никаким другим способом».

К настоящему времени, помимо НКРЯ, созданы корпуса для крупнейших языков мира, для большинства языков мира, для ряда языков России. Подготовка и пополнение корпусов продолжается.

Назад: 20 Строение мозга и национальные традиции

Дальше: 22 Итоги

21 Прикладная лингвистика. Компьютерная лингвистика

21 Прикладная лингвистика.
Компьютерная лингвистика