Машинный перевод

Автор: Пользователь скрыл имя, 07 Февраля 2013 в 09:13, реферат

Описание работы

Целью работы является рассмотрение проблем современного машинного перевода. Для этого необходимо сначала проанализировать проблемы, которые лингвистам и разработчикам уже удалось решить на протяжении недолгой истории машинного перевода, а затем - проблемы, с которыми им приходится сталкиваться в настоящее время.

Содержание

Введение
Глава 1: Машинный перевод
1.Практическое задание.
Глава 2: История машинного перевода
Глава 3: Принципы работы систем машинного перевода
Глава 4: Классификация систем машинного перевода
4.1Задачи, которые решает система машинного перевода.
4.2.Программы машинного перевода.
Заключение
Список литературы

Работа содержит 1 файл

Документ Microsoft Office Word.docx

— 52.23 Кб (Скачать)

Наиболее совершенным  считается подход к построению систем машинного перевода на основе получения  некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.

Однако, слишком много  трудностей и неясностей было в том, как нужно формализовать и  строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические  закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.

Выяснилось, что традиционная лингвистика не располагает ни фактическим  материалом, ни идеями и представлениями, нужными для построения систем машинного  перевода, которые использовали бы смысл переводимого текста.

Традиционная лингвистика  не могла дать исходные представления  не только в части семантики, но и  в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны  правила построения крупных единиц синтаксической структуры из более  мелких. В сущности, ни на один вопрос, поставленный в связи с построением  систем машинного перевода, традиционная лингвистика в 50-х годах не могла  дать ответа.

А к середине 1960-х в  США для практического использования  были предоставлены две системы  русско-английского перевода:

· MARK (в Департаменте иностранной  техники ВВС США);

· GAT (разработка Джорджтаунского  университета, использовалась в Национальной лаборатории атомной энергии  в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для  оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого  качества машинно переведенных текстов  эта деятельность в условиях США  нерентабельна. Хотя комиссия рекомендовала  продолжать и углублять теоретические  разработки, в целом ее выводы привели  к росту пессимизма, снижению финансирования, часто к полному прекращению  работ по этой тематике.

Тем не менее, в ряде стран  исследования продолжались, чему способствовал  постоянный прогресс вычислительной техники. Особенно существенным фактором стало  появление мини- и персональных компьютеров, а с ними всё более сложных  словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость  в переводе как таковом ввиду роста международных связей. Все это привело к новому подъему этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми род людской взялся полвека назад  за задачу машинного перевода, в  значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным  является ускорение работы переводчика  при использовании систем машинного  перевода: по оценкам конца 1980-х, до пяти раз. В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил  следующую классификацию систем машинного перевода:

· FAMT (Fully-automated machine translation) - полностью  автоматизированный машинный перевод;

· HAMT (Human-assisted machine translation) - машинный перевод при участии человека;

· MAHT (Machine-assisted human translation) - перевод, осуществляемый человеком с использованием компьютера.

В настоящее время существует множество коммерческих проектов машинного  перевода. Одним из пионеров в области  машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под  руководством профессора Пиотровского (Российский государственный педагогический университет им. Герцена, Санкт-Петербург).

Глава 3: Принципы работы систем машинного перевода

Извлечение информации из текста производится на основании набора атрибутов: морфологических, синтаксических, лексических, семантических и т.п. Атрибуты не указаны в тексте в  явном виде, их нужно предварительно получить. Для этого производятся различные виды анализа текста с  целью выделения атрибутов, используемых алгоритмом извлечения информации. Анализ, как правило, носит многоуровневый характер и выполняется модулем  лингвистического процессора. Обычно выделяют следующие составляющие анализа  текста:

- графематический анализ (выделение слов и предложений);

- морфологический анализ;

- синтаксический анализ;

- семантический анализ;

- построение модели предметной  области (сценария или ситуации).

На каждом уровне фрагментам текста сопоставляются новые атрибуты. На основании таких наборов атрибутов  алгоритм извлечения информации выполняет  поиск фрагментов текста, релевантных  цели. Естественно, не всегда нужно  использовать все уровни текста в  полном объеме. Все зависит от предметной области, информации, которую нужно  извлечь, источников информации, а также  точности и полноты, с которой  эту информацию нужно извлекать. Например, разрешение анафоры и кореферентности  являются очень сложными задачами, и даже их приближенное решение удается  получить лишь в некоторых предметных областях с использованием знаний об этой конкретной предметной области. Не говоря уже об универсальном алгоритме. Поэтому эти шаги зачастую исключаются  из числа этапов анализа текста.

Теперь следует рассмотреть  каждый

1. Графематический анализ

Графематический анализ - это  программа начального анализа естественного  текста, вырабатывающая информацию, необходимую  для дальнейшей морфологической  и синтаксической обработки. В задачу графематического анализа входят:

- разделение входного  текста на слова, разделители  и т.д.

- сборка слов, написанных  в разрядку;

- выделение устойчивых  оборотов, не имеющих словоизменительных  вариантов;

- выделение фамилии, имени  и отчества, когда имя и отчество  написаны инициалами;

- выделение электронных  адресов и имен файлов;

- выделение предложений  из входного текста;

- выделение абзацев, заголовков, примечаний.

2. Морфологический анализ

Алгоритмы морфологического анализа делятся на две группы: словарные и бессловарные. Бессловарные алгоритмы более компактны и  производительны, но не обладают высокой  скоростью, поэтому их применение целесообразно  лишь для выявления простых морфологических атрибутов и только в том случае, если нет требования к высокой точности. Если же предполагается использовать синтаксический анализ, то высокая точность является необходимым требованием, и применяется словарный метод.

Словарный метод предполагает наличие словаря основ и флексий. По словарю отыскиваются допустимые наборы атрибутов для каждой графемы. В случае отсутствия слова в словаре, выполняется предсказание парадигмы (аналогично бессловарным методам). Одной  графеме может соответствовать  несколько наборов атрибутов. Такие  случаи - морфологическая омонимия - довольно часто встречаются в  русском языке. Существуют алгоритмы  для решения этой проблемы с высокой  вероятностью успеха.

Еще несколько лет назад  словосочетание «компьютерная морфология»  было понятно только узкому кругу  специалистов, сейчас морфология является неотъемлемой частью интеллектуальной поисковой машины. Вероятно, в ближайшем  будущем та же участь постигнет и  синтаксический анализ.

3. Синтаксический анализ

Аналогию между системой языка и шахматами впервые  предложил швейцарский лингвист Фердинанд де Соссюр. Как не меняются суть и правила игры в зависимости  от размера доски или цвета  фигур, так и сохраняют сходство грамматические структуры и законы внешне абсолютно разных языков. Белопольный  слон никогда не займет черную клетку; каждое слово занимает только отведенное его роли место в структуре  или линейном порядке предложения (например, в русском существительное  не может стоять до предлога, от которого оно зависит). Любая удачная комбинация в партии есть продуманная последовательность ходов, где каждая фигура защищена другой, и если фигура удалена от «своих»  и остается без защиты, она будет  съедена или заперта фигурами противника, а партия проиграна. Грамматически  верное и однозначное высказывание - результат хорошо построенной непрерывающейся  структуры, где каждое слово имеет  хозяина, и если слово не связано  ни с одним из других слов в предложении, оно «выбивается» из контекста, искажая  смысл всего высказывания.

Целью синтаксического анализа  является построение синтаксических групп  на одном морфологическом варианте одной клаузы, т.е. одного простого предложения  в составе сложного.

Теоретическую лингвистику  интересуют сравнение грамматик  естественных языков и синтаксические законы, применимые одновременно к  большому количеству разных языков, то есть типология. Целью компьютерной лингвистики в области синтаксиса является построение автоматизированного  анализатора отдельного языка. Этот анализатор должен уметь выделять простые предложения в составе сложного, устанавливать связи между словами и по возможности строить полное синтаксическое дерево предложения. Если теоретические исследования описывают как письменный язык, так и устную речь, то компьютерные программы имеют дело только с грамматикой письменного языка. С одной стороны, круг задач в компьютерной лингвистике значительно уже по сравнению с теоретической, но с другой - их решение требует значительно большей строгости и формальности описания.

Сложность реализации высокоточного  анализатора связана с наличием тесной связи между синтаксисом  и семантикой, присутствием в текстах  различных языков большого количества синтаксически омонимичных конструкций, не допускающих однозначной интерпретации  без привлечения знаний о семантической  сочетаемости слов. Такова, например, проблема управления глагола предложно-падежными  конструкциями. В синтаксически  эквивалентных фразах «человек стрелял  из ружья» и «человек стрелял из окна», объект «ружье» представляет аргумент предиката «стрелять» в  роли косвенного дополнения, а объект «окно» - обстоятельство места, которое  является дополнительной характеристикой  всей ситуации в целом.

Чтобы разрешить проблему с анализом синтаксически омонимичных  конструкций, необходимо построение дерева синтаксических зависимостей между  словами во фразе. В случае удачного разбора предложение сворачивается  в полносвязное дерево с единственной корневой вершиной.

Поскольку одна словоформа может соответствовать нескольким грамматическим формам слова, в том  числе формам различных слов, в  ходе анализа необходимо производить  свертку предложения для всех возможных вариантов грамматических форм. Те грамматические формы, которые  обеспечивают максимальную свертку  дерева (минимальное число висячих  вершин), следует считать наиболее достоверными [7].

Как показала практика, для  снятия большей части омонимии (около 90%) не требуется полный синтаксический анализ, обеспечивающий полную свертку  дерева. Достаточным оказывается  включение правил согласования слов в именных и глагольных группах, свертки однородных членов, согласования подлежащего и сказуемого, предложно-падежного  управления и нескольких прочих - всего  в пределах 20-ти правил, описываемых  бесконтекстной грамматикой.

Порядок применения правил управляется алгоритмом разбора, который  на каждом шаге проверяет возможность  применения очередного правила к  очередному фрагменту фразы (паре-тройке слов, знаков препинания и т.п.) и, если удается, сворачивает фрагмент. Свертка  фрагмента обычно заключается в  его замене одним главным словом - удалением подчиненных слов, после  чего разбор продолжается. В случае невозможности дальнейшего применения правил на любом из шагов совершается откат - последний свернутый фрагмент восстанавливается и делается попытка применить другие правила. Окончательным вариантом разбора следует считать такую последовательность применения правил, которая порождает максимальную свертку фразы [10].

4. Семантический анализ

Семантический анализ строит семантическую структуру одного предложения. Семантическая структура  состоит из семантических узлов  и семантических отношений. Семантический  узел - это такой объект текстовой  семантики, у которого заполнены  все валентности, как эксплицитно  выраженные в тексте, так и имплицитные - те, которые получаются из экстралингвистических  источников. Из определения следует, что семантический узел может  быть построен только в самом конце  семантического анализа. Собственно говоря, главная цель семантического анализа - построение семантических узлов, которое  подразумевает заполнение всех валентностей.

Семантический анализ представляет собой выявление в тексте смысловых  связей и групп. Этот тип анализа  представляется в виде набора составляющих, направленных на выявление различных  семантических связей.

Во-первых, это выделение  именованных сущностей, объектов, которые  имеют различную форму записи в тексте и могут принимать  различные значения. Примерами именованных  сущностей являются такие объекты  как дата, физическое измерение, географическое название, название организации, имя  персоны и т.п. В результате слову  или группе слов приписывается атрибут, определяющий вид именованной сущности, и его в дальнейшем можно использовать для идентификации извлекаемой  информации.

Второй полезной составляющей является механизм выявления семантических  классов. К семантическому классу относится  группа понятий, связанных с одной  предметной областью и являющихся одной  и той же частью речи. Например, семантический  класс глаголов, связанных с производственной деятельностью человека.

Третий момент связан с  расширением кореферентности в  тексте. Под кореферентностью понимается ссылка разными словами на один и  тот же объект действительности. Например, фраза «глава Российского государства» и «президент России» обозначает одно и то же лицо. Задача разрешения кореферентности сводится к автоматическому  установлению референта для выражения (при наличии модели предметной области) или просто установлению кореферентной  связи (признака того, что выражения  ссылаются на одни и тот же объект) между выражениями.

Информация о работе Машинный перевод