Интерактивное управление алгоритмами перевода в системах мп



Скачать 166.48 Kb.
Дата24.04.2016
Размер166.48 Kb.
ИНТЕРАКТИВНОЕ УПРАВЛЕНИЕ АЛГОРИТМАМИ ПЕРЕВОДА В СИСТЕМАХ МП

Ю. А. Епифанцева

ЗАО «ПРОект МТ»

Julia.Jepiphantseva@promt.ru


Ключевые слова: машинный перевод (МП), интерактивное управление алгоритмами перевода, тип текста.

В данной статье обсуждаются возможности интерактивного влияния на алгоритмы перевода в системах МП, приводятся примеры некоторых структур, для которых уже созданы возможности выбора альтернативного анализа или синтеза в системах ПРОМТ, а также рассматривается ряд других потенциальных структур. Примеры приводятся для русского, английского, немецкого и французского языков. Цель статьи заключается в том, чтобы показать эффективность данного метода в МП и возможность его всестороннего применения и дальнейшего развития.

1. Введение
Несмотря на то, что с развитием и ростом популярности Интернета постоянно растет количество людей, либо ставших активными пользователями систем МП, либо пользующихся время от времени услугами онлайновых переводчиков, сама идея МП, а также реально существующие и применяющиеся системы МП постоянно подвергаются острой критике. При этом противники, или просто те, кто скептически относится к МП, приводят убедительные примеры тех структур, где «искусственный» интеллект не в состоянии принять правильное решение и успешно справиться с переводом. Это решение при переводе в состоянии принять только «всесильный» человеческий разум.
Трудно спорить с тем, что в языке есть «неразрешимое», то, что невозможно так точно описать c формальной точки зрения на одном естественном языке, чтобы можно было безошибочно перевести на другой естественный язык. Подчас информация, которая необходима при синтезировании выходного языка просто-напросто отсутствует во входном языке (примеры этого будут приведены ниже). В каждом естественном языке также присутствует некоторое количество омонимичных структур, позволяющих анализировать их корректно двумя различными способами. Кроме того, выбор того или иного синтеза, в частности, может зависеть от типа текста. Зная тип текста можно заранее задать:

Таким образом, возникает идея не сокрушаться по поводу непереводимости каких-либо структур или лингвистических явлений, а воспользоваться услугами «всесильного» человеческого разума в лице пользователя для того, чтобы помочь системе МП заранее принять максимально правильное решение. Для этого необходимо создать интерактивные возможности для настройки параметров перевода, по которым можно будет выбрать тот или иной анализ или синтез для указанной структуры. От чего может зависеть выбор того или иного приоритета? На наш взгляд - прежде всего от типа текста. Для лингвистов давно не является секретом тот факт, что тип текста влияет на использование определенных синтаксических структур (например, в документации используются в большом количестве пассивные конструкции, в инструкциях императивные и т.д.), а также определяет лексический тезаурус и многое другое. Знание типа текста могло бы иметь непосредственное применение в МП, так как помогло бы управлять целым рядом алгоритмов. Например, в английском языке большую сложность представляет снятие омонимии форма на –ed. При условии, что анализируемый текст является документацией или инструкций, в контексте, например, перед предлогом форма на -ed может с большей вероятностью трактоваться как причастие, так как в таких типах текста употребление времени Past Indefinite почти не встречается. Предварительное знание о том, является ли анализируемый фрагмент полноценным текстом, написанным по всем правилам, или представляет собой заголовок, ссылку в Интернете, т.е. тексты, в которых может отсутствовать предикат или подлежащее, смогло бы оказать существенную помощь как при анализе (снятие омонимии, поиск актантов), так и при синтезе (порядок слов в предложении, синтезирование артикля при переводе с безартиклевого языка – русского – на артиклевый язык).

Причем настройки, которые пользователь мог бы заранее устанавливать при переводе, могут как потребовать от него знания входного языка, и тогда этими настройками смогут воспользоваться только специалисты и те, кто хорошо владеет входным языком, так и не требовать специальных лингвистических или языковых знаний, что весьма важно, так как не все пользователи являются профессионалами в данной области.



2. Интерактивное настраивание алгоритмов в системах ПРОМТ

В системах машинного перевода ПРОМТ идея дать пользователю возможность заранее повлиять на качество перевода уже реализовалась в создании специальной опции «Лингвистические алгоритмы» (Интерактивная настройка алгоритмов).

Что это такое и как применяется? ЛА (ИНА) - это набор определенных для пар с общим входным или выходным языком настроек по переводу той или иной конструкции.

Ярким примером этому может быть возможность задания «рода пользователя» в системах с русским выходным языком. С помощью данной опции возможно изменить генерирующийся по умолчанию мужской род на женский при переводе предложений, где в качестве подлежащего выступает личное местоимение единственного числа первого лица «я» и сказуемое стоит в прошедшем времени. Таким образом при переводе с английского языка предложения



I wrote him a letter

по умолчанию получается перевод



Я написал ему письмо.

При включении данной опции он меняется на


Я написалА ему письмо.
Информация о роде отсутствует в исходном английском (а равно и в немецком, французском) тексте и может быть разной при переводе на русский язык. Только пользователь может задать правильную модель при переводе.

Какой бы маленькой не показалась данная проблема, она требовала немало досадной корректировки машинного перевода и, в конце концов, это просто несправедливо по отношению к пользователям–представительницам слабого пола, что именно их род при переводе игнорируется.

Аналогично может быть решена проблема синтеза глагола прошедшего времени в предложениях с подлежащим, выраженным личным местоимением «ты».

Другим примером определения пользователем параметров перевода является перевод с английского языка личного местоимения второго лица «you». В английском языке, как известно, в данном случае нет различия между единственным и множественным числом, вежливой формой и формой на «ты». На заре создания системы было принято вполне разумное и очевидное решение переводить английское «you» на русский язык (а затем и на французский, немецкий) формой множественного числа «Вы» («vous», «Sie»), так как предполагалось переводить исключительно деловую переписку. Однако, сейчас с помощью систем МП, особенно в Интернете, часто переводится личная переписка, где между корреспондентами принято неформальное обращение. Это и есть проблема определения типа текста – пользователь определяет, является ли данный текст официальным документом или письмом.

Следует отметить, что при переключении с помощью данной опции перевода со множественного числа на единственное начинает работать целый комплекс взаимосвязанных алгоритмов.


  1. перевод личного местоимения «you»;

    You are right.
    Вы правы.
    Ты прав.



  2. перевод притяжательного местоимения «your»;

    She needs your help.
    Она нуждается в вашей помощи.
    Она нуждается в твоей помощи.



  3. перевод глагола в императиве

    Take it.
    Возьмите это.
    Возьми это
    .



  4. Синтезирование возвратного местоимения при переводе на французский, немецкий и т. д.

    Wash quickly.
    Lavez-vous vite.
    Lave-toi vite.


Для систем с французским входным языком существует возможность выбора синтеза местоимения «vous» как формы множественного числа второго лица «вы» и как вежливой формы обращения на «Вы».


Je suis très heureux de vous voir.

Я очень рад вас видеть.

Я очень рад Вас видеть.
Ich bin froh, euch zu sehen.

Ich bin froh, Sie zu sehen.
Для английских систем с французским и испанским выходом разработана возможность изменения рода для личных местоимений первого лица единственного числа и местоимений третьего лица множественного числа при сказуемом в пассивной форме.


  1. I am born in Paris.
    Je suis né à
    Paris.
    Je suis née à Paris.



  2. They are born in Paris.
    Ils sont nés à Paris.
    Elles sont nées à Paris.



Для систем с немецким входным языком в настоящий момент существует возможность выбора перевода личного местоимения Sie в начале предложения. Данная структура является синтаксическим омонимом, так как может означать и «Вы», и «они» и практически не может быть определена автоматически. Однако существует наблюдение, что в письмах, как правило, нужно выбирать вариант на «Вы».
Sie haben uns einen Brief geschrieben.
Ils nous ont écrit une lettre.
Vous nous avez écrit une lettre.

They wrote us a letter.

You wrote us a letter.
Eще одна сложная проблема при переводе с немецкого языка - это снятие омонимии в пользу инфинитива или личной формы глагола третьего лица множественного числа (drehen, formen). В принципе, в языке этой синтаксической омонимии нет, но проблема состоит в том, что провести безошибочный анализ на современном этапе очень сложно. Поэтому, заранее определив тип текста как инструкцию или описание кулинарных рецептов, можно было бы установить приоритет на инфинитив для этих текстов и тем самым избежать возможных ошибок при анализе.
Например, для данных предложений
Die beiden Schrauben mit einem Schraubenzieher eine viertel Drehung drehen.

Zehn Teigkugeln formen.
можно получить следующий перевод
Повернуть на четверть оба болта отверткой.

Сформировать 10 шариков из теста.
В то время как в противном случае этот результат не гарантирован.
3. Возможное решение некоторых проблем анализа и синтеза в МП через интерактивное настраивание алгоритмов
Это были примеры уже разработанных или разрабатываемых в настоящий момент компанией ПРОМТ алгоритмов, где используются заданные пользователем параметры перевода, но работа в этом направлении и поиск конструкций, где найденный метод может быть использован, велики, если не бесконечны.

Рассмотрим еще несколько структур, которые могли бы получить решение через интерактивные средства влияния на перевод.


1. Обработка личных имен собственных и названий компаний, фирм

Эта проблема всегда была и будет актуальной, так как довольно сложно описать с формальной точки зрения контексты этих конструкций. До сих пор для ее решения в системах ПРОМТ предлагалась возможность «резервирования» таких слов и словосочетаний – слова оставались непереведенными и отмечались, как принадлежащие к определенным семантическим классам (личным именам собственным, географическим названиям, названиям компаний). Одновременно с этим в системах есть анализ личных имен собственных в определенных четко описываемых контекстах. Например, слово, известное системе как имя, и следующее прямо за ним известное или неизвестное слово с большой буквы считается сочетанием имени и фамилии John Brown, George Bush, Mary Simpson.

Но далее в тексте Brown, Bush, Simpson будут употребляться без имен и таким образом попадут в контексты, где не могут анализироваться как фамилии. Большая буква не является однозначным показателем, так как слово может стоять и в начале предложения, где эта информация неоднозначна.

Вот здесь и возможно было бы применить опцию, по которой имена, уже определенные системой как имена собственные, будут запоминаться и потом всегда будут трактоваться как имена. Таким образом, если John Brown есть имя и фамилия, то далее по тексту Brown трактуется как фамилия и пользователь получает осмысленный перевод, который иначе не может быть получен. Дело в том, что по этому алгоритму слово Brown получает отличную от словарной информацию: в словаре это прилагательное с переводом «коричневый», а по новому алгоритму одушевленное существительное, являющееся именем собственным. Данная информация окажет также положительный эффект при снятии омонимии.

Примерно такая же обработка может быть с названиями компаний и фирм. Слово или группа слов с большой буквы перед словами типа Ltd., Inc. (в английском) или GmbH, AG (в немецком) запоминаются и далее в тексте трактуются как имена собственные.
2. Выбор синтеза для глагольных времен

Как правило, в системах машинного перевода для каждого глагольного времени выбирается один синтез на выходной язык. Но нередко структура глагольных времен во входном языке не совпадает со структурой выходного языка и теоретически какому-нибудь времени во входном языке может соответствовать несколько вариантов синтеза. Безусловно, в выходном языке они не являются синонимичными, а определяются или типом текста (это может быть повествовательный текст, диалог, письмо и т.д.), или вторичными элементами в предложении, или вообще в предложении не наличествуют формальные показатели для предпочтения одного глагольного времени другому. Например, английское глагольное время Past Indefinite может быть переведено на французский Passé Composé или Imparfait. С помощью определенной опции пользователь выбирает желаемый синтез данного глагольного времени.

Кроме того при переводе, например, на немецкий язык пассивных конструкций данная опция может предлагать выбрать между


  • Passiv

  • Stativ

Здесь также уместно коснуться еще одного аспекта при интерактивной настройке алгоритма перевода, а именно, относится ли данная опция ко всему документу или только к данному конкретному предложению. Что касается рассмотренного ранее алгоритма возможного запоминания имен собственных, то естественно, что он относится только к целому документу, так как информация из одного предложения передается в другое, которое, в свою очередь, может находиться даже в другом абзаце. А вот выбор глагольного времени уже не имеет столь однозначного решения, поэтому можно заранее предусмотреть опции для того, чтобы пользователь сам определял, действует ли алгоритм на предложение, абзац или весь документ.
3. Обработка некоторых составных именных групп с определением в английском

В данном случае имеется в виду конструкция типа a1+n1+n2, где a1 – это прилагательное, а n1 n2 – существительные. Синтезировать эту конструкцию на русский, французский и другие языки можно двумя способами, отнеся прилагательное либо к n1, либо к n2, т.е.


a1+n1+n2 (a1+n1)+n2

the last telephone message последнее телефонное сообщение


a1+n1+n2 a1+(n1+n2 )

the dangerous poison bottle бутылка опасного яда


Аналогичная проблема существует и при анализе и синтезе трехчленных (т.е. состоящих из трех основ или корней) композитов в немецком, так как первый элемент может быть определением для второго элемента или, наравне со вторым элементом, определением для третьего. Например,
Rotapfeltarte торт из красных яблок
Rolldoppelschütz сдвоенный катковый затвор

4. Синтез некоторых неопределенно-личных конструкций

Для английского входа – это структура, где подлежащее выражено местоимением one. При их синтезе на русский язык, например, можно предложить пользователю выбрать несколько вариантов:

а) one каждый + сказуемое в третьем лице единственного числа.


One says.

Каждый говорит.
б) one только сказуемое в третьем лице множественного числа.
One says.

Говорят.
Для французского входа можно предложить несколько вариантов для перевода неопределенно-личного местоимения on.
а) on мы + сказуемое в третьем лице множественного числа.
On dit.

(Мы) говорим.
б) on только сказуемое в третьем лице множественного числа.
On dit.

Говорят.
К проблемам синтеза можно отнести также синтезирование глагола-связки «быть» на русский язык при переводе с немецкого, английского, французского и других языков

  • являться

  • нулевой перевод глагола

  • вместо глагола - тире

  • вместо глагола - тире и местоимение «это»,

синтез местоимения it при переводе с английского или местоимения il при переводе с французского в небезличных структурах

  • это

  • оно

  • оно/он/она

синтез рамочной структуры немецкого предиката

  • синтез по общим правилам (предикат в конце предложения)

  • синтез с нарушением рамки (предикат перед невалентным предлогом).

И таких примеров можно привести очень много.

Что касается омонимичных, в частности, синтаксических структур, то их также достаточное количество, и возможность выбрать желаемый вариант их анализа могла бы представлять большой интерес для пользователей, которые являются специалистами в области лингвистики или обладают высоким уровнем знания входного языка.
Вот только некоторые примеры омонимичных структур в немецком языке.
1. Определение предложной группы с предлогом von в пассиве как актанта пассивной структуры или как определение к предыдущей именной группе. Например, предложение

Als der Artikel von Meyer gedrückt wurde ….1

имеет два значения и может иметь в связи с этим 2 варианта анализа и синтеза:


Когда была опубликована статья Майера ….

Когда была опубликована статья Майером ….
2. В немецком предложении инфинитив может не выноситься за рамочную структуру предиката и если этот инфинитив допускает наличие прямого дополнения при себе, то может возникнуть омонимия субъекта и объекта. Например,
Hier wurde die Kunst zu lieben vergessen. 2
Данное предложение может иметь два смысла - либо «Kunst» является объектом и инфинитивная группа субъектом либо «Kunst» есть субъект и инфинитив определение к нему:

Здесь забыли (как) любить искусство.

(Hier wurde vergessen, die Kunst zu lieben.)
Здесь забыли искусство любить

(Hier wurde die Kunst vergessen, zu lieben.)
3. Омонимия формы будущего времени в активном залоге и настоящего времени в пассивном залоге при совпадении форм инфинитива и причастия прошедшего времени. Например, ... werden ... verstossen.
Примеры подобных омонимичных структур можно найти в каждом языке и выбор в пользу той или иной структуры можно оставить за пользователем.
Таким образом, используя интерактивные средства настройки параметров перевода, пользователь заранее может получить более качественный перевод, выбрать тот вариант синтеза, который более предпочтителен в данном предложении или тексте в целом, избежав при этом многочисленной ненужной редакторской правки. Не последнюю роль играет при этом и психологический эффект, так как самостоятельное настраивание алгоритмов перевода дает пользователю ощущение, что он участвует в переводе и определяет его. Интерактивная настройка перевода – это и мощное средство улучшения качества перевода, и возможность для разработчиков не решать те проблемы, которые всегда или только на данном этапе представляются неразрешимыми, а сосредоточить свои усилия на других аспектах машинного перевода.
Список литературы:

E. Agricola, Zyntaktische Mehrdeutigkeit (Polysyntaktizität) bei der Analyse des Deutschen und Englischen: Schriften zur Phonetik, Sprachwissenschaft und Kommunikationsforschung, Nr. 12, Berlin 1968




Key words: machine translation, interactive management of translation algorithms, text types.
INTERACTIVE MANAGEMENT OF TRANSLATION ALGORITHMS IN MT SYSTEMS / Julia A. Jepifantseva (PROject MT, business center “Acvatoria”, Viborskaja quay, 61, St. Petersburg, 197 342, Russia, Julia.Jepiphantseva@promt.ru
In this article we consider the possibilities of interactive management of translation algorithms in MT systems, there are given examples of some structures for which the user can already choose alternative analysis or synthesis in the PROMT systems as well as other potential structures are taken in consideration. The examples are given for Russian, English, German and French languages. The aim of the article is to show the effectiveness of this method in MT and the possibility of its wide applicability and further development.



1 Примеры взяты из статьи E. Agricola, Zyntaktische Mehrdeutigkeit (Polysyntaktizität) bei der Analyse des Deutschen und Englischen, в: Schriften zur Phonetik, Sprachwissenschaft und Kommunikationsforschung, Nr. 12, Berlin 1968, стр.3.

2





Каталог: company
company -> А. Р. Байчерова старший преподаватель кафедры предпринимательства и мировой экономики Стгау
company -> Теоретические аспекты ценностных ориентаций менеджеров и их влияние на трудовую активность
company -> Тема. Теории поведения человека в организации
company -> Манипулирование как реализация корыстных интересов. Идеологическое манипулирование. Политическое манипулирование
company -> Коллективное бессознательное и архетипы Коллективное бессознательное
company -> Контрольные вопросы и задания для проведения промежуточной аттестации (зачет, экзамен) по итогам освоения дисциплины
company -> Тема №1. Нормы современного русского литературного языка
company -> Лекция Психология как отрасль научного знания. План: Предмет, объект и методы психологии
company -> Гештальт-психология
company -> Лекция темперамент. Характер. Способности


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©psihdocs.ru 2017
обратиться к администрации

    Главная страница