Автор: Пользователь скрыл имя, 22 Марта 2012 в 13:45, реферат
Переводом называется процесс и результат создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке.
При этом коммуникативная равноценность, или эквивалентность, понимается как такое качество текста перевода, которое позволяет ему выступать
в процессе общения носителей разных языков;
в качестве полноправной замены исходного текста (оригинала);
в сфере действия языка перевода.
Введение 3
Глава 1Автоматизация лексикографических исследований работ 5
Глава 2 Машинный перевод 7
Глава 3 Системы машинного перевода 10
Глава 4 Сравнение различных типов СМП 21
Заключение 34
Список использованной литературы 36
МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ
(НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)
ИНСТИТУТ ИНОСТРАННЫХ ЯЗЫКОВ МАИ
РЕФЕРАТ
по дисциплине «Информационные технологии в лингвистике»
на тему: «Системы машинного перевода»
Выполнил:
(Подпись)__________________
Проверил:
________________________
________________________
(Подпись)_________________
_________________________
(Оценка) (Подпись)
«__»_________2011 г.
Москва 2011
Оглавление:
Введение 3
Глава 1Автоматизация лексикографических исследований работ 5
Глава 2 Машинный перевод 7
Глава 3 Системы машинного перевода 10
Глава 4 Сравнение различных типов СМП 21
Заключение 34
Список использованной литературы 36
Введение
Переводом называется процесс и результат создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке.
При этом коммуникативная равноценность, или эквивалентность, понимается как такое качество текста перевода, которое позволяет ему выступать
в процессе общения носителей разных языков;
в качестве полноправной замены исходного текста (оригинала);
в сфере действия языка перевода.
Развитие кибернетики сделало возможным машинный перевод, т.е. перевод, строящийся на использовании машиной определенных и постоянных для данного вида материала соответствий между словами и грамматическими явлениями разных языков.
В настоящее время имеется достаточно широкий выбор пакетов программ, облегчающих труд переводчика, которые условно можно подразделить на две основные группы:
электронные словари (electronic dictionary)
системы машинного перевода (machine translation system).
Системы машинного перевода (СМП) текстов с одних естественных языков на другие моделируют работу человека-переводчика. Их полезность зависит от того, в какой степени в них учитываются объективные законы языка и мышления. Законы эти пока еще изучены плохо. Поэтому, решая задачу машинного перевода, необходимо учитывать опыт межнационального общения и опыт переводческой деятельности, накопленный человечеством. В процессе перевода в качестве основных единиц смысла выступают не отдельные слова, а фразеологические словосочетания, выражающие понятия. Именно понятия являются элементарными мыслительными образами. Только используя их можно строить более сложные образы, соответствующие переводимому тексту. Обычно сравнивая работу машины и человека приводят следующую характеристику.
В современной лингвистике можно выделить ряд направлений использования компьютера.
Глава 1. Автоматизация лексикографических исследований
С помощью компьютера производится различного рода статистическая обработка языковых единиц. Например, можно указать на работу группы ученых под руководством профессора Г.Г. Силышцкого, занятых корреляционным анализом взаимозависимостей морфологических, синтаксических и семантических характеристик английских глаголов, и шире — корреляцией словообразования с другими языковыми уровнями.
Автоматизация лексикографических работ сыграла ключевую роль для создания современных поисковых систем. Изучением этого явления занимается корпусная лингвистика.
Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов.
Лингвистическим корпусом (фондом) называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).
Целесообразность создания текстовых корпусов объясняется:
представлением лингвистических данных в реальном контексте;
Компьютер может выполнять такие задачи, как упорядочение по алфавиту введенных лексических единиц, приписывание каждой из них частоты встречаемости, и многие более сложные работы, на которые лексикографам приходится затрачивать очень много времени.
достаточно большой представительностью данных (при большом объёме корпуса);
возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.
Часто в качестве корпусов сейчас используется выдача поисковых систем или страницы Интернета. Всё большую популярность в научной среде получает использование Википедии — как корпуса текстов.
В таких системах используется информационно-поисковый язык и информационно-поисковый тезаурус.
Информационно-поисковый язык ‑ это искусственный язык разметки, предназначенный для записи семантической информации и последующего использования.
Информационно-поисковый тезаурус ‑ словарь, специально организованный для сопоставления естественного и информационно-поискового языка. Тезаурус содержит список дескрипторов, т.е. лексических единиц информационно-поискового языка. Дескриптор соответствует группе ключевых слов естественного языка. Группе синонимов соответствует один дескриптор, а многозначному слову — группа дескрипторов.
Процедура составления информационно-поискового тезауруса состоит из следующих операций:
определение тематического охвата тезауруса,
сбор исходного массива ключевых слов,
их лексикографическая обработка,
установление условной эквивалентности между ними,
отбор на этой основе дескрипторов и установление парадигматических отношений между ними,
окончательное оформление тезауруса.
Эта работа проводится на лингвистической основе. Так, например, установление условной эквивалентности проверяется по текстам, в которых встречаются ключевые слова. Если замена одного слова другим во всех контекстах не приводит к искажению смысла с точки зрения специалиста, то между словами имеет место условная эквивалентность.
Отчасти системы автоматизированного поиска библиографической информации похожи на обычные поисковые системы. Более того, можно утверждать, что обычные поисковые системы, такие как Google, Яндекс, Bing являются в том числе и системами поиска библиографической информации. Правда использовать их в таком качестве оказывается не очень просто и для эффективного поиска нужна изучать язык запросов каждой из систем.
На данный момент выделяют три типа систем машинного перевода.
Полностью автоматические системы машинного перевода являются скорее несбыточной мечтой, чем реальной идей. В этой работе мы их рассматривать не будем. Все системы машинного перевода (MT-системы) работают при участии человека в той или иной мере. TM-системы иногда называют еще «памятью переводчика». Они являются скорее просто удобным инструментом, нежели элементом автоматизации.
Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины - механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить.
Задача аксиоматизации лингвистики была выдвинута одним из виднейших лингвистов московской школы П. С. Кузнецовым как задача формализации грамматики, восходящая к идеям выдающегося русского языковеда Ф. Ф. Фортунатова (1848-1914) Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода (систем МП). И хотя с тех пор прошло полстолетия, проблема машинного перевода все еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты МП конца пятидесятых ‑ начала шестидесятых годов прошлого века. Поэтому, оценивая сегодняшнюю реальность, уместно говорить и о разочарованиях, и о надеждах в этой области.
В 70-х годах разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ. Практическое применение принципов смыслового анализа текстов потребовалось при создании систем машинного перевода с иероглифических языков (китайского, японского и др.). Вопросы создания таких систем были разработаны в диссертации В. М. Зелко в 80-х годах. Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.
Любая СМП в своей работе (на этапе эксплуатации) использует формальные шаги представленные на схеме.
Системы машинного перевода могут использовать метод перевода основанный на лингвистических правилах. Наиболее подходящие слова из исходного языка просто заменяются словами переводного языка.
Часто утверждается, что для успешного решения проблемы машинного перевода, необходимо решить проблему понимания текста на естественном языке.
Как правило, метод перевода основанный на правилах использует символическое представление (посредника), на основе которого создается текст на переводном языке. А если учитывать природу посредника то можно говорить об интерлингвистическом машинном переводе или трансфертном машинном переводе. Эти методы требуют очень больших словарей с морфологической, синтаксической и семантической информацией и большого набора правил.
Если у системы машинного перевода будет достаточное количество данных, то можно получить перевод хорошего качества. Основная трудность заключается в формировании этих данных. Например, большие корпуса текста необходимые для статистических методов перевода, для перевод основанного на грамматике оказываются недостаточными. Более того, для последних, требуется дополнительное задание грамматики.
Для перевода родственных языков (русский, украинский) может оказаться достаточной простая замена слов.
Современные системы машинного перевода делят на три большие группы:
основанные на правилах;
основанные на примерах;
статистические.
Далее мы рассмотрим эту классификацию подробнее.
Системы машинного перевода основанные на правилах – общий термин, который обозначает системы машинного перевода на основе лингвистической информации об исходном и переводном языках в основном получены из (двуязычных) словари и грамматики, охватывающих основные семантические, морфологические, синтаксические и закономерности каждого языка. Такой подход к машинному переводу еще называют классическим.
На основе этих данных исходный текст последовательно, по предложениям, преобразуется в текст перевода. Часто, такие системы противопоставляют системам машинного перевода основанных на примерах.
Основной принцип работы таких систем – связь структуры входного и выходного предложения. Перевод при этом получается не особенно хорошего качества. Но на простых примерах работает.
Перевод с английского на немецкий будет выглядеть как:
A girl eats an apple. Ein Madchen isst einen Apfel.