Машинный перевод

Автор: Пользователь скрыл имя, 16 Марта 2013 в 12:35, курсовая работа

Описание работы

Перевод имеет долгую историю. Своими корнями он восходит к тем далеким временам, когда праязык начал распадаться на отдельные языки и возникла необходимость в людях, знавших несколько языков и способных выступать в роли посредников при общении представителей разных языковых общин[3]. Известный переводовед А. Д. Швейцер определяет перевод, как однонаправленный и двухфазный процесс межъязыковой и межкультурной коммуникации, при котором на основе подвергнутого целенаправленному ("переводческому") анализу первичного текста создается вторичный текст ("метатекст"),

Содержание

Введение
Глава 1: Машинный перевод
1.Практическое задание.
Глава 2: История машинного перевода
Глава 3: Принципы работы систем машинного перевода
Глава 4: Классификация систем машинного перевода
4.1Задачи, которые решает система машинного перевода.
4.2.Программы машинного перевода.
Заключение
Список литературы

Работа содержит 1 файл

Машинный перевод.docx

— 46.32 Кб (Скачать)

Четвертым элементом семантического анализа является разрешение анафоры. Анафора - это использование языковых выражений, которые могут быть интерпретированы лишь с учетом другого, как правило, предшествующего фрагмента текста. Разрешение анафоры сводится к установлению связи между анафорическим выражением и его интерпретацией (антецедентом). Частным случаем этой проблемы является разрешение местоименной анафоры, где  в роли анафорического выражения  выступает местоимение.

Последний момент при семантическом  анализе - выявление семантических  ролей и связей. Этот подход основан  на использовании словаря моделей  управления. Словарь описывает способы  синтаксической реализации в тексте различных типов смысловых отношений  между понятиями и представляет собой список предикатов русского языка (глаголов в прямых и возвратных формах и отглагольных существительных), отражающих некоторую ситуацию. Словарная  статья описывает семантические  роли участников этой ситуации и способы  их выражения в тексте. После выявления  семантических ролей можно выделить и различные семантические связи  между участниками ситуации. Виды ролей определяются при составлении  словаря, а виды связей задаются, как  правило, уже при решении конкретной задачи [9].

5. Построение модели предметной  области

Наиболее сложным, но и приносящим наиболее точные результаты этапом является построение модели ситуации или предметной области, которая описывается в  тексте. Этот этап реализует представление  в структурном виде, отражающем все  значимые смысловые связи, всего  текста или набора текстов. Но так  как задача построения модели очень  сложна, в прикладных системах редко  прибегают к ее использованию [8].

 

Глава 4: Классификация систем машинного  перевода

1.Задачи, которые решает система  машинного перевода

Работа над программой, которая  переводит с одного языка на другой, разбивается на три очевидные  подзадачи:

· создать достаточно полный словарь  или набор тематических словарей;

· научить систему распознавать не только слова, но и устойчивые обороты;

· формализовать правила перевода с учетом грамматики языков.

2.Как уже выше было сказано,  с практической точки зрения, имея в виду качество результирующего  текста и его соответствие  исходному, программы машинного  перевода подразделяют на три  категории: полностью автоматический  перевод, автоматизированный машинный  перевод, выполняемый при участии  человека, и перевод, осуществляемый  человеком с использованием компьютера. Рассмотрим их более подробно.

2. Полностью автоматический перевод

Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку  в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов.

2. Автоматизированный машинный  перевод, выполняемый при участии  человека.

Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод  возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка [8]. Главным  критерием такой программы является качество перевода. Кроме этого, для  пользователя важными моментами  является удобство интерфейса, лёгкость интеграции программы с другими  средствами обработки документов, выбор  тематики, утилита пополнения словаря. С появлением Интернета основные поставщики систем МП включили в свои продукты Web-интерфейсы, обеспечив при  этом их интеграцию с остальным программным  обеспечением и электронной почтой, что позволило применять механизмы  МП для перевода Web-страниц, электронных  писем и онлайновых разговорных  сеансов.

В системах на основе контролируемого  языка реализован переход от свободного входного языка к контролируемому  входному языку. Контроль входного языка  предусматривает определённые ограничения  лексики, грамматики, семантики. Контролируемый входной язык используется для упрощения  выражений исходного текста, чтобы  повысить качество перевода.

Также при работе с исходным текстом, необходимо учитывать ряд особенностей МТ-программ, что, по словам разработчиков  программы Promt, «не решает всех проблем  машинного перевода, но помогает отвоевать  несколько очков в противостоянии компьютера и естественного языка»:

· машинный переводчик не умеет исправлять ошибки и распознавать неправильно  написанные слова (здесь могут оказаться  полезными специальные программы  проверки орфографии);

· пропущенный или, наоборот, избыточный знак препинания может помешать электронному переводчику правильно понять синтаксическую структуру предложения;

· как правило, электронный переводчик не воспринимает слова с русской  буквой ё, а также слова с ударениями.

· следует правильно расставлять  знаки диакритики;

· использование простых синтаксических конструкций с прямым порядком слов существенно улучшает качество перевода. Например, на первом месте должно идти подлежащее или его группа. На втором месте - сказуемое, выраженное глаголом. Дальше идут обстоятельства, выраженные разными частями речи.

· следует обращать особое внимание на регистр букв: маленькая буква в слове вполне может стать большой (например, в начале предложения, в заголовке), и это учитывается при разработке систем машинного перевода; большая же буква, напротив, маленькой становится редко, причем в большинстве случаев это связано с образованием нового слова, например, при переходе собственного имени в разряд имен нарицательных.

· рекомендуется избегать пропуска служебных слов (даже если это разрешено грамматикой). Например, при переводе английского предложения "Your e-mail address is the address other people use to send e-mail messages to you" на русский язык при помощи переводчика Promt, получается не совсем понятный текст: «Ваш адрес электронной почты -- адрес другое использование людей, чтобы послать почтовые сообщения Вам». Если восстановить единственное пропущенное слово -- союз that, получится вполне корректный вариант: «Ваш адрес электронной почты -- адрес, который другие люди используют, чтобы послать почтовые сообщения Вам».

· следует избегать использования  жаргонных выражений. Одна сторона  проблемы состоит в том, что такого рода слова появляются в речи быстрее, чем их успевают фиксировать словари. Другая сторона - в том, что не всегда целесообразно добавлять неологизмы в словарь - зачастую они входят в  употребление очень небольшой группы лиц, либо исчезают так же внезапно, как и появляются [14].

· следует использовать только общепринятые сокращения. Неправильный перевод сокращения -- это только половина проблемы. Дело в том, что даже одно непереведенное слово может помещать электронному переводчику правильно проанализировать синтаксическую структуру предложения (а аббревиатуры участвуют в синтаксических связях наряду с обычными словами).

Неприятные последствия может  иметь тот факт, что некоторые  аббревиатуры совпадают по написанию  с часто используемыми словами. Например, «ПО» (программное обеспечение) пишется так же, как русский  предлог «по» (регистр букв в данном случае не играет роли, так как ничто  не запрещает нам написать предлог  «по» большими буквами, например, в  составе заголовка). Поэтому, увы, вполне закономерно выглядит перевод фразы "Я часто использую это ПО" как "I frequently use it ON." С другой стороны, если написать "Я часто использую это программное обеспечение" мы получим в переводе "I frequently use this software."

3. Перевод, осуществляемый человеком  с использованием компьютера

Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию  программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью  компьютеров. Использование технологии ТМ повышает скорость перевода за счет уменьшения объема механической работы. Однако TM не выполнит перевод за переводчика, но значительно облегчит его работу. Принцип работы технологии ТМ довольно прост - в процессе перевода пары «исходный  текст - конечный (переведенный) текст» накапливаются в базе (или базах) данных и затем используются для  перевода новых документов. Вообще, понятие массива документов очень  важно для машинного перевода. Большинство специалистов сходится во мнении, что машинный перевод  возможен только для прикладных, технических  текстов, которые могут быть заданы определенными, порой гигантскими  массивами [4]. Для облегчения обработки  информации и сравнения различных  документов система Translation Memory разбивает  весь текст на отдельные кусочки, которые называются сегментами. Такими сегментами чаще всего являются предложения, но могут быть и другие правила  сегментации. При переводе нового текста система сравнивает все сегменты текста с уже имеющимися в базе. Если системе удается найти полностью или частично совпадающий сегмент, то его перевод отображается с указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, подсвечиваются. Это своего рода "подсказки", в некоторой мере облегчающие труд переводчика и сокращающие время, необходимое для редактирования перевода. Как правило, задается порог совпадений на уровне не ниже 75%. При меньшем проценте совпадения слишком возрастают затраты на редактирование текста, и этот сегмент быстрее перевести вручную. Выходит, что при работе с TM переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в ТМ, и необходимости переводить одно и то же дважды не возникает. Данная технология помогает заметно сократить расход средств и времени на перевод технической документации за счет использования повторяющихся фрагментов текста. Помимо снижения трудоемкости перевода системы, TМ позволяет выдержать единство терминологии и стиля во всей документации, а также сократить затраты на последующую верстку переведенных документов.

Cистемы машинного второй и третьей категорий также подразделяют на основанные на правилах (rule-based) и основанные на примерах (example-based). В первых языковая грамматика проработана глубже, языковых правил больше. Системы второго типа - самообучающиеся, они строятся на динамическом порождении языковых правил для конкретных текстовых примеров. Границы между системами example-based и rule-based не очень четкие, поскольку и те и другие используют словари (статическая информация о языке) и правила работы со словарями.

Заключение

Бесконечное разнообразие современного мира передается при помощи средств  информации в ощущениях и интерпретациях многочисленных участников международного информационного процесса - журналистов, корреспондентов, комментаторов, телеоператоров. Поэтому постоянно растет значение переводческой деятельности. Перевод  был важен всегда. Научный прогресс дошел до изобретения машинного  перевода, который во многом облегчил жизнь переводчикам. Конечно, и сейчас, существует огромное количество недостатков  и в таком, казалось бы, совершенном  изобретении. Но мы должны приложить  все усилия , что бы развивать машинный перевод. И к этому имеются стимулы. Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый - собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка - от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов. Второй стимул - социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации - разработка или принятие единого языка, а также изучение иностранных языков - не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

Список литературы

1. Архипов А.Ф. Самоучитель перевода  с немецкого языка на русский. - М.: Высшая школа, 1991.

2. Бархударов Л.С. Язык и перевод. - М.: Международные отношения, 1975.

3. Бреус Е.В. Основы тории и  практики перевода с русского  языка на английский. - М.: УРАО, 2000.

4. Васильев А. Компьютер на  месте переводчика. // Подводная лодка. - 1998, № 6.

5. Винокуров А.А., Чуканов В.О.Новый  метод оценки машинного перевода.// Информационные технологии и  системы. Hardware Software Security. Тенденции  и перспективы - Сборник статей: М., Международная академия информатизации, 1997.

6. Егорушкин А. У каждого свой  язык? // Компьютерра. - 2002, №21.

7. Ермаков А.Е. Неполный синтаксический  анализ текста в информационно-поисковых  системах. - М., 2002.

8. Каничев М. Встреча компьютерных  толмачей. // Мир ПК. - 1998, № 8.

9. Кормалев Д.А. Приложения технологии  извлечения информации из текста: теория и практика. - Переяславль-Залесский, 2003.

10. Ножов И. Синтаксический анализ. // Компьютерра. - 2002, №21.

11. Сокирко А. Будущее машинного  перевода. // Компьютерра. - 2002, №21.

12. Кузнецов П. С., Ляпунов А.  А., Реформатский А. А. Основные  проблемы машинного перевода. Вопросы  языкознания, 1956, № 5.

Размещено на Allbest.ru


Информация о работе Машинный перевод