Машинный перевод

Автор: Пользователь скрыл имя, 17 Января 2012 в 20:39, курсовая работа

Описание работы

Целью данной работы является определение целесообразности и перспективности использования современных систем машинного перевода, доступных на сегодняшний день массовому потребителю, не владеющему в достаточной мере английским языком, а также анализ качества и эффективность выполнения машинного перевода.

Содержание

Введение …………………………………………………………………………..3
Теоретическая часть……………………………………………………………..6
1. Машинный перевод…………………………………………………………...6
1.1. Определение машинного перевода………………………………………..6
1.2. Из истории машинного перевода…………………………………………7
1.2.1 Развитие машинного перевода в СССР…………………………………..10
2. Системы машинного перевода……………………………………………..12
2.1. Основные принципы работы программ машинного перевода…………..12
2.2 Современные системы машинного перевода……………………………..12
2.3. Описание программ………………………………………………………...16
2.3.1. Promt………………………………………………………………………..16
2.3.2. Pragma………………………………………………………………………19
2.3.3. Google Translate…………………………………………………………...20
Практическая часть……………………………………………………………23
3. Перевод текстов различных функциональных стилей с помощью систем машинного перевода…………………………………………………..23
3.1 Понятие функционального стиля речи…………………………………….23
3.2. Классификация функциональных стилей речи…………………………...25
3.3. Сравнительный анализ перевода текстов публицистического и научного стиля, выполненного программами машинного перевода Promt, Pragma и Google Translate…………………………………………………………………..28
Заключение ……………………………………………………………………...37
Библиография…………………………………………………………………...39
Приложение А
Приложение Б

Работа содержит 1 файл

Курсовая работа .docx

— 133.45 Кб (Скачать)

        В 1974 в СССР в качестве головной организации по машинному переводу был определен Всесоюзный центр переводов научно-технической литературы и документации (ВЦП), взявший на себя координацию работ в масштабе страны. В ВЦП были созданы промышленные системы машинного перевода с английского языка на русский АМПАР, с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации. Впоследствии на ее базе были созданы более эффективные системы машинного перевода для персональных компьютеров семейства СПРИНТ[4,с. 251].

      В ВПЦ была также разработана система  машинного перевода с русского языка  на английский АСПЕРА. Большой вклад  в разработку промышленных систем машинного  перевода внесла ленинградская общесоюзная группа «Статистика речи» под руководством Р.Г.Пиотровского, а также группами специалистов по компьютерной лингвистике в Минске (А.В.Зубов), Кишиневе (В.А.Чижаковский), Махачкале (А.И.Чапля), Чимкенте (К.Б.Бектаев), Самарканде (Х.А.Арзикулов) и др. На базе исследований и научно-практического подхода группы «Статистика речи» были впоследствии разработаны и сейчас находятся в коммерческом использовании такие системы машинного перевода, как Stylus, Socrat и другие.

      В целом, история становления машинного  перевода насчитывает чуть больше 50 лет. За все это время одни системы  машинного перевода сменялись другими  – начиная с программ, основанных на ресурсах первых прототипов современных  компьютеров и заканчивая коммерческими  системами, предлагаемыми конечным пользователям и использующими  мощные ресурсы онлайн-серверов и  персональных компьютеров. В ходе устранения технических недостатков, становилось  очевидным, что перевод текстов  с одних языков на другие не ограничивается примитивной перекодировкой слов. Основные трудности, возникающие в процессе перевода, должны устраняться путем  автоматизированного представления  смыслового содержания текста, а также  фоновых знаний о понятиях той  предметной области, к которой относится  исходный текст.

     2. Системы машинного  перевода

2.1.  Основные принципы работы программ машинного перевода.

    Система машинного перевода обычно состоит из лингвистического описания входного и выходного языков (то есть автоматических словарей и грамматик формальных всех уровней) и алгоритма (то есть инструкции по использованию этих словарей и грамматик, ориентированной только на их форму), на основе которого выполняется сам перевод. Полный процесс машинного перевода состоит из следующих основных этапов:

    1) анализ текста на входном языке  (поиск слов в словаре, морфологический  и синтаксический анализ —  моделируется понимание текста);

      2) преобразование (переход от структуры текста на входном языке к структуре текста на выходном языке);

    3) синтез текста на выходном  языке (синтаксическое и морфологическое  оформление текста — моделируется  построение текста)[9].

    Более подробно принципы работы машинного  перевода будут рассматриваться  в главе «Современные системы  МП».

    2.2.Современные системы машинного перевода

      С новым веком в обиходе переводчиков стали появляться все более и  более усовершенствованные программы  для автоматического перевода. И  на сегодняшний день существует множество  программ, написанных специально для  машинного перевода. Безусловно, появление  электронных словарей можно считать  величайшим достижением, которое значительно  облегчает работу переводчика. По мнению специалистов, изучающих сферу МП, системы автоматизированного перевода пока играют лишь вспомогательную роль, так как обладают возможностью лишь удовлетворительно декодировать текст и перевести лишь несложные синтаксические и лексические конструкции. Системам машинного перевода пока не под силу разобраться в многозначности, всевозможных аллюзиях и недомолвках, присущих большинству неадаптированных текстов.

      На  современном рынке информационных технологий существует несколько принципов автоматизированного перевода информации. Приведем существующую на сегодняшний день классификацию систем машинного перевода [11]:

    • Программы на основе технологии Мachine Тranslation
    • Системы перевода с функцией Translation Memory
    • Контролируемый язык и машинный перевод на основе базы знаний
    • Онлайн переводчики
    • Онлайн словари

      К системам машинного перевода можно отнести программы, осуществляющие полностью автоматизированный перевод. Программы, разработанные на основе технологии Мachine Тranslation, осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. Сначала система анализирует структурные элементы входного предложения, затем преобразует его в соответствии со структурой языка и синтезирует окончательный вариант. Кроме того, для повышения качества перевода программа должна уметь распознавать устойчивые выражения, а также иметь большой словарный запас. Для перевода тематических текстов обычно требуется подключать специализированные словари. С помощью систем с технологией Machine Translation можно мгновенно получить черновой вариант перевода, когда необходимо быстро уловить общий смысл текста.

      Системы перевода с функцией Translation Memory (TM) предоставляют средства для так называемого Machine Assisted Human Translation (MAHT) - перевода, выполняемого человеком с помощью машины. "Не переводить один и тот же текст дважды," - основная идея Translation Memory. Эта технология перевода базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. Когда система перевода находит сегмент, соответствующий заранее установленным критериям, то его перевод берется из базы переводов Translation Memory. Такой принцип работы наиболее эффективен при переводе повторяющихся текстов, сходных по тематике и структуре [15].

Авторы  статьи [15] приводят в пример список наиболее известных систем ТМ:

    - Transit швейцарской фирмы Star,

    - Trados (США),

    - Translation Manager, производитель IBM,

    - Eurolang Optimizer французской фирмы LANT,

    - DejaVu, производитель ATRIL (США),

    - WordFisher (Венгрия).

      В системах на основе контролируемого языка реализован переход от свободного входного языка к контролируемому входному языку. Контроль входного языка предусматривает определённые ограничения лексики, грамматики, семантики. Контролируемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

      Службы  онлайн перевода, как и онлайн словари выполняют перевод непосредственно в окне Web-браузера, не требуя установки программы-переводчика на компьютер пользователя. Как правило, существует ограничение на объем вводимого текста, которое варьируется в пределах 500-3000 символов. С появлением Интернета основные поставщики систем машинного перевода включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронной корреспонденции и онлайновых разговорных сеансов [20].

      Учитывая  указанную классификацию систем машинного перевода, необходимо обладать  определенной информацией о способах работы человека и программ автоматического перевода. Правильное взаимодействие переводчика и программы позволит получить качественные результаты перевода, а также в большой степени ускорит и облегчит сам процесс. Этапы взаимодействия компьютера и человека при машинном переводе представлены в обобщенном виде в Таблице 1.1[11].

      Таблица 1. 1 Формы организации взаимодействия компьютера и человека при машинном переводе

Этапы работы Процесс выполнения
Предредактирование Подготовка текста к обработке машиной
Интерредактирование Корректировка человеком во время работы программы
Постредактирование Человек-редактор исправляет результат работы системы
Смешанные системы Одновременно с пред- и постредактированием
Частично  автоматизированный перевод Использование переводчиком-человеком компьютерных словарей
Системы с разделением труда Компьютер переводит фразы по структуре, после человек корректирует результат
 

      Несомненно, учитывая этапы, описанные в Таблице 1.1, совместная работа переводчика и компьютера будет выполняться качественнее и в более краткие сроки. 

    2.3.Описание программ машинного перевода

    Говоря  о современных программах для  автоматического перевода, нельзя не заметить, что с каждым годом, если не чаще, программное обеспечение  совершенствуется и достигает все  больших результатов. В данной работе мы предлагаем описание трех наиболее популярных и востребованных как в автономном, так и онлайн режиме программ.

      2.3.1. Система машинного перевода Promt

    Ознакомившись с результатами рейтинга существующих программ автоматического перевода текста, и мнением, как переводчиков-специалистов, так и массовых пользователей данная программа считается одной из лучших известных на сегодняшний день [19]. Она предоставляет собой системы перевода с различными функциональными возможностями. Ниже представлены основные характеристики   системы машинного перевода Promt:

    1. Алгоритмическая основа «translation engines», обеспечивает высокое качество перевода.
    2. Настройки системы перевода предоставляют пользователю широкий, интуитивно понятный набор инструментов для коррекции системы и обеспечивают использование правильной терминологии при переводе. Также возможна настройка синтаксических и семантических правил, учитывающих структуру и формат текста в документе.
    3. Программа Promt  включает в себя две технологии перевода - машинного перевода МП и технологию Translation Memory. Синергетический эффект от взаимного применения двух технологий позволяет обеспечить практически 100%-ное качество перевода при работе с повторяющимися текстами.
    4. Программа полностью интегрирована для работы не только с операционными системами семейства Microsoft Windows, но и с Macintosh, Linux  и Windows Mobile.

      Модуль  системы Promt основан на «описании грамматики в виде расширенных сетей переходов - ATN (Augmented Transition Network Grammar)» [15]. Это означает, что программа работает с использованием информации, заданной в словарных статьях слов и выражений в словарях системы - части лингвистической базы данных. Принцип работы и основные компоненты модуля перевода, а также компоненты лингвистической базы показаны в Таблице 1.2.

          Таблица 1.2 Основные компоненты модуля перевода и лингвистической базы.

    Модуль  перевода Лингвистическая база
    Препроцессор (языково-независимая часть) На стадии предварительной  обработки - ассоциированная память (если задана в системе)
    Нормализация  текста (языково-независимая часть) На стадии лексического анализа - древесные структуры, описывающие  входную морфологию, и словари
    Лексический анализ (зависит от входного языка) На стадии семантико-синтаксического  анализа - расширенные сети переходов
    Семантико-синтаксический разбор (зависит от входного языка) На стадии синтеза - выходные морфологические таблицы
    Transfer (зависит от входного и выходного  языка)  
    Синтез (зависит от выходного языка)  
 

      В работе переводчика Promt важным является то, что Система словарей, используемых при переводе, имеет трехуровневую иерархию - генеральный словарь, специализированные словари, а также словари, разработанные пользователем самостоятельно. Такая трехуровневая структура позволяет легко настраивать систему на работу в различных предметных областях.

      Генеральный словарь для одной языковой пары содержит от 40 до 200 тысяч словарных  статей, которые в свою очередь  содержат структурированное описание различной лингвистической информации, необходимой системе для работы сложнейших алгоритмов анализа и  синтеза текста. Словари по тематикам  содержат специфические слова и  выражения, характерные для предметной области. Например, для англо-русской  и русско-английской систем разработаны  специализированные словари, охватывающие более 50 различных тематик. В настоящее время системы PROMT выполняют перевод для 24 языковых направлений.

Информация о работе Машинный перевод