Системы машинного перевода

Автор: Пользователь скрыл имя, 22 Марта 2012 в 13:45, реферат

Описание работы

Переводом называется процесс и результат создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке.
При этом коммуникативная равноценность, или эквивалентность, понимается как такое качество текста перевода, которое позволяет ему выступать
 в процессе общения носителей разных языков;
 в качестве полноправной замены исходного текста (оригинала);
 в сфере действия языка перевода.

Содержание

Введение 3
Глава 1Автоматизация лексикографических исследований работ 5
Глава 2 Машинный перевод 7
Глава 3 Системы машинного перевода 10
Глава 4 Сравнение различных типов СМП 21
Заключение 34
Список использованной литературы 36

Работа содержит 1 файл

Реферат информатика в лингвистике.doc

— 571.00 Кб (Скачать)

Эти системы делятся на три группы:

      системы пословного перевода;

      трансфертные системы;

      интерлингвистические;

 

Пословный перевод

Такие системы используются сейчас крайне редко из-за низкого качества перевода. Слова исходного текста преобразуются (как есть) в слова переводного текста. Часто такое преобразование происходит без лемматизации и морфологического анализа. Это самый простой метод машинного перевода. Он используется для перевода длинных списков слов (например, каталогов). Так же он может быть использован для составления подстрочечника для TM-систем.

Трансфертные системы

Как трансфертные системы так и интерлингвистические имеют одну и ту же общую идею. Для перевода необходимо иметь посредника, которой в себе несет смысл переводимого выражения. В интерлингвистических системах посредник не зависит от пары языков, в то время как в трансфертных – зависит.

Трансфертные системы работают по очень простому принципу: к входному тексту применяются правила, которые ставят в соответствие структуры исходного и переводного языков. Начальный этап работы включает в себя морфологический, синтаксический (а иногда и семантический) анализ текста для создания внутреннего представление. Перевод генерируется из этого представления с использованием двуязычных словарей и грамматических правил. Иногда на основе первичного представления, которое было  получено из исходного текста, строят более «абстрактное» внутренне представление. Это делается для того, чтобы акцентировать места важные для перевода, и отбросить несущественные части текста. При построении текста перевода преобразование уровней внутренних представлений происходит в обратном порядке.

При использовании этой стратегии получается достаточно высокое качество переводов, с точностью в районе 90% (хотя это сильно зависит от языковой пары). Работа любой системы трансфертного перевода состоит как минимум из пяти частей:

      морфологический анализ;

      лексическая категоризация;

      лексический трансфер;

      структурный трансфер;

      морфологическая генерация.

Морфологический анализ. Слова исходного текста классифицируются по частям речи. Выявляются их морфологические признаки. Определяются леммы слов.

Лексические категоризации. В любом тексте некоторые слова могут иметь более чем одно значение, вызывая неоднозначность в анализе. При лексической категоризации выявляется контекст слова. Возможны различного рода пометки и уточнения.

Лексический трансфер. На основе двуязычного словаря происходит перевод лемм слов. Действие очень похоже на пословный перевод.

Структурный трансфер. Слова согласуются в предложении.

Морфологическая генерация. На основе выходных данных структурного трансфера создаются словоформы переводного текста.

Одной из основных особенностей трансфеных систем машинного перевода является этап, во время которого промежуточное представление текста на языке оригинала «передается» в промежуточное представление текста в целевом языке. Это может работать на одном из двух уровней лингвистического анализа, или сразу на обоих.

 

Уровни:

1.      Поверхностный (синтаксический) трансфер. Этот уровень характеризуется передачей «синтаксических структур» между исходным и переводным языком. Подходит для языков в той же семье или того же типа, например, в романских языков, между итальянским испанским, каталонским, французским, и т.д.

2.      Глубинный (семантический) трансфер. Уровень характеризуется семантическим представлением. Оно зависит от языка оригинала. Это представление может состоять из ряда структур, которые представляют значение. Перевод также обычно требует структурного трансфера. Этот уровень используется для перевода между более отдаленными языками.

Интерлингвистический машинный перевод

Интерлингвистический машинный перевод – один из классических подходов к машинному переводу. Исходный текст трансформируется в абстрактное представление, которое не зависит от языка (в отличие от трансфертного перевода). Переводной текст создается на основе этого представления. Основным преимуществом такого подхода является то, что для добавления нового языка в систему. Можно доказать математически, что в рамках этого подхода, создания каждого нового интерпретатора языка для такой системы будет удешевлять ее, по сравнению, например, с системой трансфертного перевода. Кроме того, в рамках такого подхода можно

      реализовать «пересказ текста», перефразирование исходного текста в рамках одного языка;

      относительно простая реализация перевода сильно отличающихся языков, таких как, например русский и арабский.

Однако, до сих пор не существует реализаций такого подхода, которые бы корректно работали бы хотя бы для двух языков. Многие эксперты высказывают сомнения в возможности такой реализации. Сама большая сложность для создания подобных систем заключается в проектировании межъязыкового представления. Оно должно быть одновременно абстрактным и независящим от конкретных языков, но в тоже время оно должно отражать особенности любого существующего языка. С другой стороны, в рамках искусственного интеллекта, задача выделения смысла текста на данный момент до сих пор не решена.

Впервые интерлингвистический подход был предложен в 17 веке Декартом и Лейбницем, которые предложили универсальные словари, использующие числовые коды. Другие, такие как Кейв Бек, Афанасий Кирхер и Иоганн Иоахим Бехер работали над разработкой однозначного универсального языка, основанного на принципах логики и иконографики.

В 1668 году Джон Уилкинс в трактате «Опыт о Подлинной символике и философском языке» рассказал о своем интерлингва .

В 18 и 19 веков было разработано много универсальных языков, в том числе и Эсперанто. Известно, что идея универсального языка для машинного перевода, никак не проявилась на начальных этапах развития этой технологии. Вместо нее рассматривались только пары языков. Однако, в течение 1950-х и 60-х годов, исследователи в Кембридже возглавляемые Маргарет Мастерман, в Ленинграде во главе с Николаем Андреевым и в Милане  Сильвио Ceccato начали работу в этой области.

В 1970-х и 1980-x годах были сделаны определенные успехи в этой области и был построен ряд систем машинного перевода.

В этом методе перевода, межъязыковое представление можно рассматривать как способ описания анализа текста, на языке оригинала. При этом, в представлении сохраняются морфологические, синтаксические характеристики текста. Предполагается, что таким образом можно передать «смысл» при создании переводного текста.

При этом иногда используется два межъязыковых представления. Одно из них более отражает характеристики исходного языка. Другое – языка перевода. Перевод в данном случае производится в два этапа.

В некоторых случаях используются два и более представления одного уровня (одинаково близкие к обоим языкам), но разнящиеся по тематике. Это необходимо для повышения качества перевода специфических текстов.

Такой подход не нов для лингвистики. Он основан на идеи близости языков. Для улучшения качества перевода, естественный язык используется в качестве моста между двумя другими языками. Например, при переводе с украинского на английский, иногда используется русский язык.

Для использования системы интерлингвистического машинного перевода необходимы:

      словари для анализа и генерации текстов;

      описание грамматик языков;

      база знаний понятий (для создания межъязыкового представления);

      правила проекции понятий для языков и представления.

Самым сложным моментом при создании такого типа является невозможность построить базу для широких областей знаний. А те базы, которые создаются для очень специфичной тематики, обладают высокой вычислительной сложностью.

Системы машинного перевода основанные на примерах

Перевод основанный на примерах – один из подходов к машинному переводу, при котором используется двуязычный корпус текста. Этот корпус текста во время перевода используется как база знаний. Грубо говоря, это перевод по аналогии. Если задуматься о том, как человек переводит, то мы вряд ли придем к выводу, что переводчик осуществляет глубокий лингвистический анализ. Предполагается, что люди разлагают исходный текст на фразы, потом переводят эти фразы, а далее составляют переводной текст из фраз. Причем, перевод фраз обычно происходит по аналогии с предыдущими переводами.

Для построения системы машинного перевода, основанной на примерах  потребуется языковой корпус, составленный из пар предложений.

 

 

Например:

Английский

Японский (латиница)

How much is that red umbrella?

Ano akai kasa wa ikura desu ka.

How much is that small camera?

Ano chiisai kamera wa ikura desu ka


 

Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком.

Можно заметить, что предложения из примера отличаются только двумя словами. И это можно видеть для обоих языков. В данном случае для перевода нужно знать только три единицы информации:

1.      How much is that X ?  Ano X wa ikura desu ka.

2.      red umbrella  akai kasa

3.      small camera  chiisai kamera

Таким образом, мы получили всего лишь три правила перевода. Важно отметить, что правила перевода используемые в этом методе, отличаются от простых грамматических правил классических методов. В данном случае мы оперируем более высокоуровневыми данными.

Перевод, основанный на примерах, лучше всего подходит для таких явлений как фразовые глаголы. Значения фразовых глаголов сильно зависит от контекста. Фразовые глаголы очень часто встречаются в разговорном английском языке. Они состоят из глагола с предлогом или наречием. Смысл такого выражения невозможно получить из смыслов составляющих частей. Классические методы перевода в данном случае неприменимы.

Этот метод перевода можно использовать для определения контекста предложений.

Двуязычные корпуса текста

 

Возникает ожидаемый вопрос, где брать такие пары. Примерами двуязычных корпусов текстов можно назвать парламентские отчеты в Канаде, Гонконге и других странах. Тексты представляют собой протоколы дебатов в парламенте. Кроме того, хорошим примером являются официальные документы Европейского экономического сообщества. Они издаются на 11 языках. Организация объединенных наций публикует документы на нескольких языках. Эти материалы оказались очень полезными для машинного перевода.

Статистический машинный перевод

Статистический машинный перевод — это метод машинного перевода. Он использует сравнение больших объёмов языковых пар, так же как и машинный перевод основанный на примерах.

Статистический машинный перевод основан на поиске наиболее вероятного перевода предложения с использованием данных из двуязычных корпусов текстов. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст.

В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки. Мы предполагаем, что статья, написанная на английском языке, на самом деле является статьей написанной на английском, но текст зашифрован (или искажен шумом). При таком подходе становится понятно почему, чем дальше языки, тем лучше работает статистический метод, по сравнению с классическими подходами. Интересно заметить, что на этой же идеи основано исправление опечаток во многих текстовых редакторах. Если говорить совсем точно, то в основе этой идеи лежит модель Шеннона.

Модель Шеннона

Модель состоит из пяти элементов: источника информации, передатчика, канала передачи, приемника и конечной цели, расположенных линейно. Передатчик кодирует информацию, полученную от источника, и передает ее на канал. По каналу передачи, на который действует шум — помехи любого рода, искажающие информацию, данные поступают в приемник, где они декодируется и передаются к конечной цели.

 

 

Из-за шума полученная приемником информация в общем случае не совпадает с информацией, отправленной передатчиком. Однако, согласно Шеннону, создавая избыточную информацию, исходные данные можно восстановить со сколь угодно высокой вероятностью. Для обнаружения ошибок используются контрольные суммы, для их исправления — специальные корректирующие коды (при условии, что степень шума не превосходит некоторой границы). Стоит отметить, что любая информация в некотором роде избыточна. Человеческая речь избыточна — чтобы уловить смысл предложения, зачастую необязательно слышать его полностью. Аналогично, письменная речь, тоже избыточна, и при переводе этим можно воспользоваться. Если предложение в целом понятно, но есть несколько незнакомых слов, то не обычно не трудно догадаться об их значении.

Информация о работе Системы машинного перевода