Машинный перевод

Автор: Пользователь скрыл имя, 18 Декабря 2012 в 12:10, курсовая работа

Описание работы

Цель данной работы – определение того, насколько можно использовать современные программные продукты для осуществления перевода, а также выявление наиболее перспективных, на наш взгляд, направлений исследований в области его автоматизации.
В соответствии с поставленной целью, задачами исследования являются:
определение максимально эффективного способа организации электронных словарей;
уяснение различий между разнообразными системами МП и классификации последних;
анализ работы систем машинного перевода на примере программы PROMT XT.

Содержание

Введение
1 Машинный перевод………………………………………………………………
1.1 Как формировалась школа машинного перевода………………….
1.2 Классификация систем машинного перевода……………………...
1.3 Как работает машинный переводчик………………………………
2 Система машинного перевода МП PROMT XT………………………………..
2.1 Основные особенности………………………………………………
2.2 Профессиональная система перевода PROMT
Translation Office 2000…………………………………………………..
2.3 Ошибки, возникающие при переводе……………………………...
3 Советы по улучшению качества перевода……………………………………...
Заключение………………………………………………………………………….
Список литературы…………………………………………………………………

Работа содержит 1 файл

Машинный перевод.doc

— 221.00 Кб (Скачать)
  • SmarTool – реализует функции перевода в приложениях Microsoft Office;
  • Mail Translator – встраивается в Outlook 2000;
  • PROMT – профессиональная среда перевода;
  • Dictionary Editor – средство создания и коррекции словарей;
  • Electronic Dictionary (входит только в комплектации "Гигант" и ERRE);
  • WebView – браузер-переводчик;
  • QTrans – упрощенный редактор-переводчик;
  • Clipboard Translator – переводчик текстов буфера обмена;
  • Интегратор – средство доступа к приложениям семейства.

Отдельные модули системы организованы в семейство PROMT Family.

Профессиональная среда перевода PROMT

Профессиональная  среда перевода PROMT предоставляет  собой мощный текстовый редактор с настраиваемым интерфейсом в стиле Microsoft Word 2000. Вся работа с исходным текстом и переводом осуществляется в окне документа (рис. 1).


 

Рисунок 1 – Окно документа PROMT

 

Система позволяет  не только осуществлять перевод текстов, но и производить весь комплекс офисной работы с документами (рис. 2).


 




 




 

 


 






 


 

 

 

Рисунок 3 –  Комплекс офисной работы с документами

 

Возможен итерационный перевод текста с коррекцией словаря. Каждый цикл повышает качество перевода. Система поддерживает также использование препроцессоров, влияющих на качество перевода.

Встраивание перевода в приложения MS Office (SmarTool)

Данный компонент  реализует функции перевода в  приложениях Microsoft Office 2000 и позволяет  добавлять полнофункциональное меню перевода в различные приложения Microsoft Office. На рис. 3 показан процесс перевода абзаца текста с замещением русского текста на английский непосредственно из приложения MS Word.

Рисунок 3 – Процесс перевода абзаца текста с замещением русского текста на английский

 

Соответственно, аналогичным образом можно подготовить  различные типы документов, используя  функции перевода в других приложениях Microsoft Office. Подобная организация перевода приложений особенно удобна, когда вам постоянно требуется перевод. Однако если потребности перевода являются эпизодическими, то встроенная система не очень удобна, так как достаточно сильно увеличивает время на запуск приложений MS Office и инициализацию модуля перевода.

В ряде случаев  полезной является функция Text-To-Speech (TTS), которая позволяет озвучить переведенный документ.

Средство просмотра Web-сайтов (WebView)

WebView представляет собой средство просмотра Web-страниц на иностранных языках с автоматическим переводом.

Система обеспечивает сравнительно быстрый онлайновый перевод  текста и гиперссылок, позволяет  осуществить одновременный просмотр исходной Web-страницы и страницы перевода, сохраняет форматирование при переводе.

Пользователь  имеет возможность выбора тематики и направления перевода. Естественно, при наличии графических элементов на странице объем переводимых единиц снижается (рис.4).

Рисунок 4 – Перевод страниц

 

WebView использует  новую технологию запоминания тематики для перевода – SmartURL, которая заключается в том, что приложение запоминает тематику и направление перевода той или иной переводимой Web-страницы и при повторном обращении использует запоминаемые параметры автоматически.

Настройщик словарей (Dictionary Editor)

В процессе перевода ряд слов часто бывает переведен  неудачно, а некоторые вовсе не переведены. Эффективность перевода повышается при помещении подобных слов в пользовательские словари  или за счет изменений в текущем словаре. Настройка словарей осуществляется с помощью Dictionary Editor, имеющего интеллектуальные алгоритмы пополнения словарей.

Электронный словарь (Electronic Dictionary)

Интегрированный электронный словарь входит только в комплектации Гигант и в русско-английскую – англо-русскую версии.

Словарь содержит большое количество слов и словосочетаний (около

10000000) из 50 предметных областей, а также дополнительную грамматическую информацию о том, как склоняется данное слово и в каких словосочетаниях оно используется.

Словарь принципиально  отличается от традиционной формы представления  информации в бумажных словарях, принятой, например, в таком словаре, как Lingvo 6.0.

Основным отличием словаря PROMT является его подход к  отбору переводных эквивалентов, при котором многообразие вариантов перевода сведено к двум-трем наиболее употребимым и подходящим в 90% случаев, а многообразие значений слова компенсируется огромным количеством словосочетаний, включающих это слово. Для нас подобная форма организации словаря как справочного средства показалась несколько непривычной. Хотя, вероятно, использование словарей с разной структурой в профессиональной работе может быть весьма полезно.

Понять разницу  в подходах организации словаря  легко, сравнив перевод слова water, которые дают словари PROMT и ABBYY Lingvo 6.0 (рис.5, рис. 6).

Рисунок 5 –  Перевод словарем PROMT

 

Рисунок 6 –  Перевод словарем ABBYY Lingvo 6.0

Оперативный переводчик корреспонденции (Mail Translator)

Это средство для  перевода корреспонденции, которое  встраивается в Outlook 2000. Указав параметры  входящей корреспонденции, пользователь имеет возможность организовать автоматический перевод с сохранением  переводов в указанную папку.

Вспомогательные приложения

QTrans – перевод без возможностей форматирования. С помощью данной программы удобно быстро перевести набранный текст или текстовый файл (рис.7).

Рисунок 7 – Перевод набранного текста

 

Перевод буфера обмена (Clipboard Translator)

В целом, несмотря на неизбежные ошибки переводчика, хотелось бы отметить высокий уровень перевода, удобство работы, продуманность интерфейса и хорошую документированность  программы.

О двух других продуктах  новой линейки машинных переводчиков – переводчике для Интернета PROMT Internet 2000 и домашнем переводчике Magic Gooddy 2000 мы расскажем в продолжении данной статьи, которое будет опубликовано в следующем номере.

 

2.3 Ошибки, возникающие при переводе

В качестве примера хотелось бы привести перевод статьи из журнала «Deutschland» сделанной при помощи переводчика PROMT 7 Giant.

 

 

Исходный текст:

Peking

Zentrale des chinesischen Staatsvernsehens und TV-Kulturzentrum.

Es ist der Werk, das an die Grenzen der Architektur geht und die naturlichen Gesetze der Schwerkraft offensichtlich ignoriert: das neue Gebaude des chinesischen Staatsvernsehens CCTV. In Pekings Geschaftsviertel ragen die beiden L-formigen Turme schrag in die Hohe- eine unglaubliche Statik. Die Turme scheinen fast umzufallen, am Ende werden sie uber 200 Meter hoch sein. Verantwortlich fur dieses aufregende Bauprojekt, eines der gro?ten weltweit, ist der deutsche Architekt Ole Scheeren. Der 36-Jarige ist Partner im Office for Metropolitan Architekture (OMA) des niederlandischen Stararchitekten Rem Koolhaas Ole Scheeren kummert sich um das Asiengeschaft des Architektenburos und leitet in Peking seit funf Jahren ein Team von 60 Architekten und 120 Ingenieuren. Im CCTV-Neubau aus Glas und Stahl werden spater einmal 10000 Menschen arbeiten, seine Nutzflache betragt gigantische 540000 Quadratmeter. Im Jahr 2009 soll die neue Fernsehzentrale fertig sein. Im angrenzenden TV-Kulturzentrum(TVCC) werden bereits wahrend der olympischen Spiele 2008 Fernsehsender aus aller Welt untergebracht. Fur Ole Scheeren gibt es derzeit kein vergleichbares Bauobjekt: „Das statische System des CCTV ware wahrscheinlich vor funf bis zehn Jahren nicht zu realisieren gewesen, weil die Computer-Software nicht weit genug entwickelt waren.

Компьютерный  вариант перевода:

Центр китайского Staatsvernsehens и телевизионный  культурный центр.

Это произведение{завод}, которое идет у границ архитектуры и игнорирует естественные законы силы тяжести, очевидно: новое здание китайского Staatsvernsehens CCTV. В торговом квартале Пекина обе башни в форме л возвышаются косо на высоту невероятную статику. Башни почти, кажется, падают, в конце они будут высотой 200 м. Ответственно для этого волнующего строительного проекта, одного самый большой во всем мире, является немецкий архитектор Оле Шерен. 36-Jдrige - это партнер в Office Metropolitan (БАБУШКА) нидерландского звездного архитектора Rem Koolhaas Ole Scheeren заботится о деле Азии офиса архитектора и руководит{провожает} в Пекине уже 5 лет группа{команда} 60 архитекторов и 120 инженеров. В новостройке CCTV из стакана{стекла} и стали 10 000 людей будут работать позже однажды, его{ее} полезная площадь составляет гигантские 540 000 кв.м. В 2009 году должен быть готов новый телевизионный центр. В смежном телевизионном культурном центре (TVCC) 2008 телекомпаний размещаются уже во время олимпийских игр{геймов} со всего света. Для Ole Scheeren не имеется теперь{тогда} никакого сравнимого строительного объекта: „ Статическую систему CCTV не нужно было бы реализовать, наверное, от 5 до 10 лет назад, так как компьютерное программное обеспечение не были достаточно недалеко разработаны.

Текст полученный после профессионального перевода:

Пекин.

Центр китайского телевидения и телевизионный  центр.

Проект  нового здания Китайского государственного телевидения CCTV доходит до границ возможного, не считаясь с законом тяготения. В деловом центре Пекина две башни в форме буквы «L» под углом поднимаются в небо. Кажется они вот- вот упадут, ведь из высота должна превышать 200 метров. Руководит этим захватывающим дух проектом (один из крупнейших в мире) 36-летний архитектор Оле Шерен. Он выступает партнером Office for Metropolitan Architecture (OMA) знаменитого нидерландского архитектора Рема Кольхааса. Оле Шерен отвечает за азиатские заказы и уже 5 лет руководит в Пекине командой из 60 архитекторов и 120 инженеров. В новом здании CCTV из стекла и стали будут трудиться 10000 человек, а его полезная площадь составит 540000 квадратных метров. Новый телецентр откроется в 2009 году. А в расположенном рядом Телевизионном культурном центре (TVCC) уже во время Олимпийских игр 2008 разместястся телекомпании со всего мира. Сейчас это самый крупный объект Оле Шерена: «Еще пятьдесят лет назад реализовать статическую систему CCTV было бы невозможно по причине отсутствия мощных компьютерных программ».

При проведении сопоставительного анализа были обнаружены следующие искажения:

1. Неточности. В  переведенном тексте особенно  часто встречается этот вид  ошибок. К этому приводит выбор  машиной лишь одного из предложенных вариантов перевода слова. В памяти электронного переводчика не заложена информация о большинстве аббревиатур. В предложенной статье присутствуют специальные аббревиатуры, обозначающие архитектурные фирмы и организации в Китае. Одну из них, ОМА, компьютер переводит дословно – бабушка… Здесь на адресата происходит и дезориентирующее и дезинформирующее воздействие.

2. Полная непереводимость  слова. С переводом сложных  слов, терминов компьютер чаще  всего не справляется. Так и  в нашем случае компьютер оставил без внимания перевод композита Staatsvernsehens и попросту не перевёл его. Это слово является достаточно простым для перевода и электронный словарь Lingvo 12 от фирмы ABBYY даёт перевод этого слова в полном значении.

3. Непереводимость  имён собственных. Практически все имена собственные которые часто встречаются особенно в журнальных статьях, остаются после перевода без изменений или подвергаются транслитерации.

 

 

 

3 Советы по улучшению качества перевода

Существуют способы  улучшения результатов машинного перевода, доступные каждому пользователю:

1. Исход работы в значительной мере решается еще до ее начала

Прежде чем  приступить к переводу, обязательно нужно определить две вещи: во-первых, для каких целей предполагается использовать его результаты, а во-вторых, что представляет собой исходный текст.

Назначение перевода играет первостепенную роль при оценке его качества. В самом деле, один и тот же результат можно считать отличным, если нужно просто узнать, о чем идет речь в оригинальной статье, и совершенно непригодным, если нужно получить текст для публикации в книге или журнале. Но иногда даже самый "грубый" перевод оказывается приемлемым, если в нем имеется достаточно информации, по которой специалист в соответствующей предметной области может легко восстановить содержание текста.

С другой стороны, определив, к какому стилю речи принадлежит  исходный текст, нетрудно оценить его пригодность для машинного перевода, а значит, и предугадать результат. Чем больше в тексте иносказательных оборотов, метафор, чем свободнее стиль, тем хуже справится компьютер с его переводом.

Лучше других обрабатываются научные, технические и образовательные тексты, которым присуще строгое изложение материала. Если своевременно пополнять специальные словари новыми терминами, то можно получать полностью связный перевод текстов, требующий минимальной стилистической доработки.

Разговорный и  публицистический стиль, где много  специфических оборотов, но большинство  слов используется в прямом смысле, пригодны для ознакомительного перевода, однако для получения грамотного выходного текста потребуется ручная правка. А вот поэзия и художественная литература, к сожалению, совершенно непригодны для машинного перевода. Смысл текста, построенного на иносказательных выражениях, при машинном переводе искажается и недоступен даже для ознакомления.

Информация о работе Машинный перевод