Системы машинного перевода

Автор: Пользователь скрыл имя, 22 Марта 2012 в 13:45, реферат

Описание работы

Переводом называется процесс и результат создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке.
При этом коммуникативная равноценность, или эквивалентность, понимается как такое качество текста перевода, которое позволяет ему выступать
 в процессе общения носителей разных языков;
 в качестве полноправной замены исходного текста (оригинала);
 в сфере действия языка перевода.

Содержание

Введение 3
Глава 1Автоматизация лексикографических исследований работ 5
Глава 2 Машинный перевод 7
Глава 3 Системы машинного перевода 10
Глава 4 Сравнение различных типов СМП 21
Заключение 34
Список использованной литературы 36

Работа содержит 1 файл

Реферат информатика в лингвистике.doc

— 571.00 Кб (Скачать)

Таким образом, для перевода текста необходимо найти способ декодирования, использующий естественную избыточность, в связи с чем декодирование должно быть вероятностным. Задача такого декодирования заключается в том, чтобы, при данном сообщении, найти исходное сообщение, которому соответствует наибольшая вероятность. Для этого же необходимо для любых двух сообщений уметь находить условную вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется в исходное сообщение.

В данном случае нужна модель источника (модель языка) и модель канала (модель перевода). Модель языка дает оценку вероятности фразам переводного языка, а модель перевода оценивает вероятность исходной фразы при условии фразы на переводном языке. Если нам нужно перевести фразу с русского на английский, то мы должны знать, что именно обычно говорят по-английски и как английские фразы искажаются до состояния русского языка. Сам по себе перевод превращается в процесс поиска такого английской фразы, которая максимизировала бы произведения безусловной вероятности английской фразы и вероятности русской фразы (оригинала) при условии данной английской фразы.

 

 

      E ‑ фраза перевода (английская);

      R ‑ фраза оригинала (русская).

В системах статистического перевода, в качестве модели языка используются варианты n-граммной модели (например, в переводчике Google, использутеся 5-граммная модель). Согласно этой модели, правильность выбора того или иного слова зависит только от предшествующих (n-1) слов.

Самой простой статистической моделью перевода является модель дословного перевода. В этой модели, известной как Модель IBM №1, предполагается, что для перевода предложения с одного языка на другой достаточно перевести все слова (создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель языка. Единственным массивом данных, которым оперирует Модель №1, является таблица вероятностей попарных переводных соответствий слов двух языков. Не сегодняшний день используются более сложные модели перевода. Многие из них являются коммерческими тайнами компаний разработчиков таких систем.

Работа статистических систем, так же как и систем основанных на примерах происходит в двух режимах: обучения и эксплуатации. В режиме обучения просматриваются параллельные корпуса текста и вычисляются вероятности переводных соответствий. Строится модель языка перевода. Тут же определяются вероятности каждого n-грамма. В режиме эксплуатации, для фразы из исходного текста ищется фраза переводного текста, так, чтобы максимизировать произведение вероятностей.

Альтернативная классификация СМП

Ранее, до написания это работы мы приводили иную классификацию СМП.

Здесь мы не будем ее рассматривать, тем более, статистические системы в нее совсем не входят. Семантическим СМП соответствуют интерлингвистические текущей классификации, однако в русской литературе слово «семантический» встречается чаще.

ТМ-системы

После работы СМП (трансфертного типа, Example-Based) не опознанные фрагменты текста переводятся на иностранный язык вручную. При этом можно воспользоваться процедурой приближенного поиска этих фрагментов в базе данных, а результаты поиска использовать как подсказку. Результаты ручного перевода новых фрагментов текстов можно снова водить в базу данных. Тогда, по мере перевода все новых и новых документов, «память переводчика» будет постепенно обогащаться, и ее эффективность будет возрастать. Бесспорным достоинством технологии «памяти переводчика» является высокое качество перевода того класса текстов, для которого она создавалась.

Но базы переводных соответствий, построенные для однородных текстов одного предприятия, пригодны лишь для однородных текстов близких по профилю предприятий, так как предложения и большие фрагменты предложений, извлекаемые из текстов одних документов, как правило, не встречаются или очень редко встречаются в текстах других документов. Практическая реализация связаны с большими трудозатратами на создание «памяти переводчика» или пополнение массивов двуязычных текстов (билингв). По такой системе чаще всего и переводятся научные, технические и математические тексты. Авторам этой работы, в частности, известно, что подобный подход част используется Курчатовском институте.

Глава 4.Сравнение различных типов СМП

 

Рассмотрим кратко преимущества и недостатки существующих систем.

Системы пословного перевода на данный момент используются только для составления подстрочечника, как отмечалось ранее.

Преимущества:

      простота;

      высокая скорость работы;

      не требовательные к ресурсам.

Недостатки: низкое качество перевода.

Ярких представителей на рынке нет, в данном случае удобнее создавать новую систему под конкретную задачу.

Трансфертные системы распространены очень широко.

Наиболее известными представителями являются:

      ImTranslator;

      PROMPT.

Все подобные системы имеют сходные преимущества и недостатки.

Преимущества:

      высокое качество перевода

(при наличие нужных словарей и правил);

      обычно есть выбор тематики текста, который повышает качество перевода;

      возможно уточнение перевода, благодаря внесению изменений в базу данных переводчика (таким образом, пользователь получает потенциально бесконечное множество терминов, с которыми можно свободно оперировать, и можно достигнуть «бесконечного» качества перевода).

Недостатки:

      высокая стоимость и время разработки;

      для добавления нового языка, приходиться переделывать систему заново;

      нужна команда квалифицированных лингвистов, для описания каждого исходного и каждого переводного языка.

      требовательность к ресурсам на этапе составления базы.

 

Интерлингвистические системы перевода так и не были доведены до уровня промышленных систем.

Предполагаемые преимущества:

      высокое качество перевода, независимо от выбора языка.

      выделение смысла из исходного текста происходит один раз и потом записывается на любой язык, в том числе исходный

(получаем «пересказ текста»);

      низкая стоимость трудозатрат на добавления нового языка в систему.

Недостатки:

      спорность потенциальной возможности;

      высокая сложность разработки;

      системы не масштабируются.

 

Модель интерлингвистического привела к тому, что в России стала делаться система машинного перевода ЭТАП, на которую было затрачено огромное количество времени и  сил, без какого-либо видимого результата.

В компании Abbyy, в течение десяти лет, под руководством В. П. Селегея, пытаются тоже пытаются создать интерлингвистическую систему.

Можно еще упомянуть проект ДИАЛИНГ. Результатом проекта стала только библиотеки машинной морфологии русского языка (сайт aot.ru).

СМП, основанные на примерах, так же не имеют ярких представителей. Существующие прототипы используются в академической среде для иллюстрации самого метода. Часто они поставляются не в виде готового продукта, а в виде набора библиотек:

      Marclator – СМП Дублинского Университета;

      Cunei ‑ гибридная СМП, основанная на переводе по аналогии и на статистическом переводе.

Рассмотрим преимущества и недостатки таких систем:

Преимущества:

      высокое качество перевода

(при наличие достаточно долгой тренировке системы);

      хорошо справляется со многими контекстными задачами

(фразовые глаголы);

      квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;

      логическая простота устройства;

      возможно обучение системы во время ее эксплуатации.

Недостатки:

      для обучения системы нужны большие параллельные корпуса текста, размеченные определенным образом.

      перевод сильно зависит от корпусов, которые использовались при обучении;

      для создания подобных систем требуются специализированные языки программирования;

      продолжительное время обучения;

      требовательность к ресурсам на этапе обучения.

Статистические системы машинного перевода активно разрабатывались (и разрабатываются) компанией IBM. Благодаря ее разработкам, были созданы модели перевода IBM Model 1-5. Но наибольшую известность этот метод приобрел благодаря компании Google. Кроме переводчика Google существует еще ряд систем и библиотек, использующих статистический подход:

      Giza++ ;

      Moses;

      Pharaoh;

      Rewrite;

      BLEU scoring tool.

Не очень давно появился статистический переводчик для Яндекса, правда пока он владеет только русским, английским и украинским.

Преимущества:

      высокое качество перевода (для фраз, которые целиком помещаются в n-граммную модель):

      при наличие достаточно долгой тренировке системы.

      при наличие качественных корпусов текста;

      квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;

      труд человека минимизирован для создания таких систем;

      не требуется перестраивать систему при добавлении нового языка;

      возможно обучение системы во время ее эксплуатации.

 

Недостатки:

      для обучения нужны большие параллельные корпуса текста;

      сложный математический аппарат;

      качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель;

      перевод сильно зависит от корпусов, которые использовались при обучении.

      при добавлении нового языка приходится анализировать большое количество параллельных корпусов;

      продолжительное время обучения;

      требовательность к ресурсам на этапе обучения.

 

Преимущества и недостатки СМП, основанных на примерах, и статистических СМП во многом совпадают. Однако огромным преимуществом последних является то, что обучение таких систем происходит без участия человека. Для статистического перевода не нужна дополнительная разметка корпусов текста, это значительно упрощает их построение. С другой стороны для качественного обучения и тех и других нужны значительные объемы параллельных текстов. Потому часто переводчики являются дополнительными сервисами поисковых систем (Google, Яндекс). На данный момент, статистические системы являются лидерами по соотношению цена / качество для всех СМП.

Сравнение статистических и трансфертных СМП

Google и PROMPT

На данный момент трансфертный и статистический машинный перевод являются лидерами среди методов машинного перевода. Следуя за сотрудниками журнала Компьютер Пресс, Николем Прохоровым, Давидом Харатишвили, сравнивать оба метода на примере известных СМП.

Данные за 2007 год взяты из их исследований.

Для эксперимента использовали два английских текста:

      первый — фрагмент из новости, посвященной судебному процессу;

Attorney’s Fees A clause for attorney’s fees is normally included in the note in the event the borrower defaults in repayment of the loan. This means that if the lender has to sue to collect on the note, the court will give the party which wins the lawsuit reasonable attorney’s fees.

      второй — отрывок из официального разъяснения о правилах получения кредита.

If you are requesting a credit report because you have been denied services or credit within the last thirty days due to an unfavorable credit report, you are entitled to receive a copy of the report at no charge.

 

PROMT 8.0 (2008)

PROMT (translate.ru, 2011)

Google (2007)

Google (2011)

Судебные издержки Пункт за судебные издержки обычно включается в примечание в случае неплатежи заемщика в выплате ссуды. Это означает, что, если кредитор должен предъявить иск , чтобы собраться на примечании, суд даст сторону, которая выигрывает судебный процесс разумные судебные издержки.

Адвокатские гонорары пункт за адвокатские гонорары обычно включаются в примечание в конечном счете неплатежи заемщика в выплате ссуды. Это означает, что, если кредитор должен предъявить иск, чтобы собраться на ноте, суд даст сторону, которая выигрывает судебный процесс разумные адвокатские гонорары.

Прокурора Тарифы Положение на адвоката гонора р, как правило, включены в записку в случае невыполнения заемщиком в погашение кредита. Это означает, что если кредитор имеет на иск собирать по записке, суд даст стороной, которая выиграет иск разумный гонорар адвоката.

Судебные издержки предложение для оплаты адвоката, как правило, включены в записку в случае дефолта заемщика в счет погашения кредита. Это означает, что если кредитор подать в суд, чтобы собирать на сведению, суд даст партия, которая победит сборов иск разумные адвоката.

Если Вы просите отчет о кредитных операциях, потому что Вам отказали в услугах или кредите в течение прошлых тридцати дней вследствие неблагоприятного отчета о кредитных операциях, Вы наделены правом получить копию отчета бесплатно.

Если Вы просите отчет о кредитных операциях, потому что Вам отказали в услугах или кредите в течение прошлых тридцати дней из-за неблагоприятного отчета о кредитных операциях, Вы наделены правом получить копию отчета бесплатно.

Если Вы просите кредит доклад потому, что Вы были лишены услуг или кредитов в течение последних тридцати дней, в связи с неблагоприятн ыми кредитн ого отчет а, Вы имеете право получить копию доклада бесплатно.

Если вы запрашиваете отчет о кредитных операциях, потому что вы были лишены услуг или кредит в течение последних тридцати дней из-за неблагоприятных кредитный отчет, вы имеете право получить копию доклада на безвозмездной основе.

Информация о работе Системы машинного перевода