Системы машинного перевода

Автор: Пользователь скрыл имя, 22 Марта 2012 в 13:45, реферат

Описание работы

Переводом называется процесс и результат создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке.
При этом коммуникативная равноценность, или эквивалентность, понимается как такое качество текста перевода, которое позволяет ему выступать
 в процессе общения носителей разных языков;
 в качестве полноправной замены исходного текста (оригинала);
 в сфере действия языка перевода.

Содержание

Введение 3
Глава 1Автоматизация лексикографических исследований работ 5
Глава 2 Машинный перевод 7
Глава 3 Системы машинного перевода 10
Глава 4 Сравнение различных типов СМП 21
Заключение 34
Список использованной литературы 36

Работа содержит 1 файл

Реферат информатика в лингвистике.doc

— 571.00 Кб (Скачать)

 

Результат PROMT 8.0 можно оценить как весьма добротный машинный перевод: точно передан смысл исходного текста, все предложения имеют целостную структуру и легко читаются. Однако, было замечено несколько неудачных формулировок:

      «за судебные издержки»;

      «чтобы собраться на примечании».

Современная веб-версия PROMT, тоже неплохо справилась с задачей, если не считать странную фразу «адвокатские гонорары».

Перевод Google (2007.12) содержит довольно много языковых конструкций, смысл которых совершенно непонятен:

      «положение на адвоката гонорар»;

      «суд даст стороной».

Таким образом, в некоторых предложениях смысл исходного текста можно лишь угадать, но и для этого потребуется несколько раз перечитать полученный перевод. При переводе второго англоязычного текста (заявление на получение кредита) PROMT и Google достойно справились со своей задачей. Google даже отличился и перевел выражение «at no charge» стилистически более точно: «на безвозмездной основе».

На примере проведенного эксперимента, интересно пронаблюдать развитие обеих СМП. Как ни странно, за 3 года PROMPT практически не изменился.

Google значительно изменился в лучшую сторону. Последнее наводит на мысль, что потенциал трансфертных систем перевода рано или поздно будет исчерпан, в то время как качество перевода статистических систем перевода будет улучшаться со временем. Нельзя сказать, что это абсолютно верное заключение. Для строгих прогнозов нужно проводить ряд экспериментов, причем в течение длительного периода.

Обратный перевод

Проведем эксперимент с теми же самыми СМП, что и ранее.

Будем проводить тестирование на текстах различной тематики:

      техника,

      финансы,

      юриспруденция.

Перевод, сделанный PROMT выглядит более понятным. Смысл во всех текстах передан правильно, предложения выходного текста имеют правильную структуру. В качестве недостатка можно отметить, что в некоторых случаях PROMT выбрал не совсем корректный перевод терминов (например, «the rate» переводится во втором отрывке именно как «курс», а «enclosure» правильнее переводить как «приложение»).

В данном случае, было бы интересно выполнить обратный перевод текстов.

Каждой СМП дать перевести результат ее собственного перевода. В идеале мы должны получить исходный текст. В реальности, это совсем не так. Так как при переводе на русский язык были потери, то при таком двойном переводе потери будут более значительными.

 

 

 

Важно отметить, что ситуация аналогично, если текст переводит человек а не машина.Исходный текст

PROMT (translate.ru)

Google

The probe is also looking into whether the firm «illegally cut off competitors from distribution channels».

Исследование также изучает, отключала ли фирма «незаконно конкурентов от каналов распределения».

Зонд также изучает ли фирма «незаконно отрезаны конкурентов из каналов распределения».

The rate of EUR is defined in accordance with Paragraph 3 of the present Contract. Should there be any changes concerning customs, taxes and other dues, the total Contract value must be agreed additionally by both Parties.

Уровень ЕВРО определен в соответствии с Параграфом 3 настоящего контракта. Должны там быть любые изменения относительно таможни, налогов и других взносов, полная Договорная стоимость должна быть согласована дополнительно обеими Сторонами.

Курс евро определяется в соответствии с пунктом 3 настоящего Договора. Если есть какие-либо изменения, касающиеся таможенных, налогов и других сборов, общая стоимость контракта должны быть согласованы дополнительно обеими Сторонами.

The Parties hereto acknowledge that General Conditions, Enclosure No 2, form an integral part of this Contract.

Стороны к этому признают, что Общие условия, Вложение № 2, формируют неотъемлемую часть этого Контракта.

Стороны признают, что Общие условия, корпус № 2, являются неотъемлемой частью настоящего Договора.

 

Исходный текст

PROMT (translate.ru)

Google

The probe is also looking into whether the firm «illegally cut off competitors from distribution channels».

Research also studies, whether the firm «disconnected illegally competitors from distribution channels».

The probe is also examining whether the firm illegally cut off competitors from distribution channels.

The rate of EUR is defined in accordance with Paragraph 3 of the present Contract. Should there be any changes concerning customs, taxes and other dues, the total Contract value must be agreed additionally by both Parties.

EURO level is defined according to Paragraph 3 of the present contract. There should be there any changes concerning customs, taxes and other payments, full Contractual cost should be coordinated in addition both Parties.

The euro exchange rate is determined in accordance with paragraph 3 of this Agreement. If there is any change relating to customs, taxes and other fees, the total value of the contract must be agreed upon by both parties.

The Parties hereto acknowledge that General Conditions, Enclosure No 2, form an integral part of this Contract.

The parties to it recognize that the General conditions, the Investment № 2, form an integral part of this Contract.

The parties acknowledge that the General Conditions, the case number 2, are an integral part hereo

 

Даже беглый просмотр результатов второй таблицы позволяет сказать, что Google лучше справился с этой задачей. Это во многом объясняется принципами его работы. Используемые английские фразы оказались просто наиболее вероятным переводом русского текста. Текст созданный PROMPT достаточно далек от оригинала, и не вполне верен с точки зрения грамматики, но основной смысл отрывков был передан верно. Если вернуться к рассмотренный выше модели шеннона, то шум создаваемый трансфертными СМП, всего скорее является постоянным. Простыми словами, если много раз применять обратный перевод к одному и тому же отрывку, то качество отрывка каждый раз будет ухудшаться плавно. При этом так же плавно будет искажаться смысл текста.

 

 

Исходный текст

PROMT (translate.ru)

Google

The probe is also looking into whether the firm «illegally cut off competitors from distribution channels».

Исследование также учится, разъединила ли фирма «незаконно конкурентов от каналов распределения».

Зонд также изучает ли фирма незаконно отрезать конкурентов от каналов распределения.

The rate of EUR is defined in accordance with Paragraph 3 of the present Contract. Should there be any changes concerning customs, taxes and other dues, the total Contract value must be agreed additionally by both Parties.

ЕВРОПЕЙСКИЙ уровень определен согласно Параграфу 3 настоящего контракта. Должны быть там любые изменения относительно таможни, налогов и других платежей, полная Договорная стоимость должна быть скоординирована, кроме того, обе Стороны.

Курс евро определяется в соответствии с пунктом 3 настоящего Соглашения. Если есть какие-либо изменения, связанные с таможенными, налогов и других платежей, общая стоимость контракта должны быть согласованы обеими сторонами.

The Parties hereto acknowledge that General Conditions, Enclosure No 2, form an integral part of this Contract.

Стороны к этому признают, что Общие условия, Инвестиции № 2, формируют неотъемлемую часть этого Контракта.

Стороны признают, что общие условия, случай номер 2, являются неотъемлемой частью hereo

 

Для статистических СМП искажения текста будут меньшими и с каждым обратным переводом они будут уменьшаться пока на фразы на русском и на английском не станут более вероятными с точки зрения системы, при этом смысл может значительно исказиться.

После сравнения двух совсем разных типов СМП можно придти к следующим выводам.

1.      Для практических задач удобнее использовать трансфертные системы. Они наиболее проработаны и переводы, созданные ими, потребуют меньшей правки.

2.      Потенциал статистических систем значительно больше, и со временем они будут улучшаться, качество перевода зависит от времени обучения и размера базы.

Лексические особенности

В тексте встречаются слова общего языка, то есть общеупотребительная

лексика:

 

The word did not appear in Webster’s New World Dictionary as late as 1957

 

В рамках этой лексики осуществлен перевод, как машиной, так и человеком.

В данном случае машина ошиблась только в согласовании определений. С другой стороны, система перевода не всегда удачно разрешает омонимию. Потому в машинном переводе текста присутствуют бессмысленные фразы.

... как пояснил Оксфордский словарь английского языка, слово прошло через многие псевдо-этимологический извращений ...

Подобные ошибки достаточно в большом количестве встречаются у обеих систем. У Google они проявляются реже. Это связано с тем, что существует он дольше, и имеет большую базу текстов. С другой стороны, специалисты Яндекса уделяют большее внимание русскому языку, с течением времени, перевод должен стать лучше чем у Google.

Очень оказалось примечательно, что ряд слов Яндекс просто отказался переводить. Яндекс очень плохо реагирует на цепочки букв совместно с другими символами (кавычки, апострофы, скобки). Мы полагаем, что это не связано с особенностями алгоритма и базы, а является прямым следствием ошибок программистов.

Кроме того, Яндекс хуже проявил себя на географических названиях и именах собственных. Переводил он их формально, не учитывая, отечественные традиции именований.

Синтаксические особенности

Рассматриваемый текст имеет четкую структуру. В каждом абзаце выдвигается определенное предположение, которое в нем же и доказывается.

В отрывке можно предложения с прямым порядком слов, которые можно

считать определениями. Обеими СМП структура был сохранена.

Большая часть предложений имеет прямой порядок слов. В тексте преобладают сложноподчиненные предложения. Немногочисленные простые

Информация о работе Системы машинного перевода