Автор: Пользователь скрыл имя, 07 Февраля 2013 в 09:13, реферат
Целью работы является рассмотрение проблем современного машинного перевода. Для этого необходимо сначала проанализировать проблемы, которые лингвистам и разработчикам уже удалось решить на протяжении недолгой истории машинного перевода, а затем - проблемы, с которыми им приходится сталкиваться в настоящее время.
Введение
Глава 1: Машинный перевод
1.Практическое задание.
Глава 2: История машинного перевода
Глава 3: Принципы работы систем машинного перевода
Глава 4: Классификация систем машинного перевода
4.1Задачи, которые решает система машинного перевода.
4.2.Программы машинного перевода.
Заключение
Список литературы
Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.
Однако, слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.
Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.
Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности, ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.
А к середине 1960-х в
США для практического
· MARK (в Департаменте иностранной техники ВВС США);
· GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведенных текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом ее выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.
Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъему этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.
Впрочем, мечты, с которыми
род людской взялся полвека назад
за задачу машинного перевода, в
значительной мере остаются мечтами: высококачественный
перевод текстов широкой
· FAMT (Fully-automated machine translation) - полностью автоматизированный машинный перевод;
· HAMT (Human-assisted machine translation) - машинный перевод при участии человека;
· MAHT (Machine-assisted human translation) - перевод, осуществляемый человеком с использованием компьютера.
В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Пиотровского (Российский государственный педагогический университет им. Герцена, Санкт-Петербург).
Глава 3: Принципы работы систем машинного перевода
Извлечение информации из текста производится на основании набора атрибутов: морфологических, синтаксических, лексических, семантических и т.п. Атрибуты не указаны в тексте в явном виде, их нужно предварительно получить. Для этого производятся различные виды анализа текста с целью выделения атрибутов, используемых алгоритмом извлечения информации. Анализ, как правило, носит многоуровневый характер и выполняется модулем лингвистического процессора. Обычно выделяют следующие составляющие анализа текста:
- графематический анализ
(выделение слов и предложений)
- морфологический анализ;
- синтаксический анализ;
- семантический анализ;
- построение модели предметной
области (сценария или
На каждом уровне фрагментам
текста сопоставляются новые атрибуты.
На основании таких наборов
Теперь следует рассмотреть каждый
1. Графематический анализ
Графематический анализ - это программа начального анализа естественного текста, вырабатывающая информацию, необходимую для дальнейшей морфологической и синтаксической обработки. В задачу графематического анализа входят:
- разделение входного текста на слова, разделители и т.д.
- сборка слов, написанных в разрядку;
- выделение устойчивых оборотов, не имеющих словоизменительных вариантов;
- выделение фамилии, имени и отчества, когда имя и отчество написаны инициалами;
- выделение электронных адресов и имен файлов;
- выделение предложений из входного текста;
- выделение абзацев, заголовков, примечаний.
2. Морфологический анализ
Алгоритмы морфологического анализа делятся на две группы: словарные и бессловарные. Бессловарные алгоритмы более компактны и производительны, но не обладают высокой скоростью, поэтому их применение целесообразно лишь для выявления простых морфологических атрибутов и только в том случае, если нет требования к высокой точности. Если же предполагается использовать синтаксический анализ, то высокая точность является необходимым требованием, и применяется словарный метод.
Словарный метод предполагает
наличие словаря основ и
Еще несколько лет назад словосочетание «компьютерная морфология» было понятно только узкому кругу специалистов, сейчас морфология является неотъемлемой частью интеллектуальной поисковой машины. Вероятно, в ближайшем будущем та же участь постигнет и синтаксический анализ.
3. Синтаксический анализ
Аналогию между системой языка и шахматами впервые предложил швейцарский лингвист Фердинанд де Соссюр. Как не меняются суть и правила игры в зависимости от размера доски или цвета фигур, так и сохраняют сходство грамматические структуры и законы внешне абсолютно разных языков. Белопольный слон никогда не займет черную клетку; каждое слово занимает только отведенное его роли место в структуре или линейном порядке предложения (например, в русском существительное не может стоять до предлога, от которого оно зависит). Любая удачная комбинация в партии есть продуманная последовательность ходов, где каждая фигура защищена другой, и если фигура удалена от «своих» и остается без защиты, она будет съедена или заперта фигурами противника, а партия проиграна. Грамматически верное и однозначное высказывание - результат хорошо построенной непрерывающейся структуры, где каждое слово имеет хозяина, и если слово не связано ни с одним из других слов в предложении, оно «выбивается» из контекста, искажая смысл всего высказывания.
Целью синтаксического анализа является построение синтаксических групп на одном морфологическом варианте одной клаузы, т.е. одного простого предложения в составе сложного.
Теоретическую лингвистику
интересуют сравнение грамматик
естественных языков и синтаксические
законы, применимые одновременно к
большому количеству разных языков, то
есть типология. Целью компьютерной
лингвистики в области
Сложность реализации высокоточного
анализатора связана с наличием
тесной связи между синтаксисом
и семантикой, присутствием в текстах
различных языков большого количества
синтаксически омонимичных
Чтобы разрешить проблему
с анализом синтаксически омонимичных
конструкций, необходимо построение дерева
синтаксических зависимостей между
словами во фразе. В случае удачного
разбора предложение
Поскольку одна словоформа
может соответствовать
Как показала практика, для снятия большей части омонимии (около 90%) не требуется полный синтаксический анализ, обеспечивающий полную свертку дерева. Достаточным оказывается включение правил согласования слов в именных и глагольных группах, свертки однородных членов, согласования подлежащего и сказуемого, предложно-падежного управления и нескольких прочих - всего в пределах 20-ти правил, описываемых бесконтекстной грамматикой.
Порядок применения правил
управляется алгоритмом разбора, который
на каждом шаге проверяет возможность
применения очередного правила к
очередному фрагменту фразы (паре-тройке
слов, знаков препинания и т.п.) и, если
удается, сворачивает фрагмент. Свертка
фрагмента обычно заключается в
его замене одним главным словом
- удалением подчиненных слов, после
чего разбор продолжается. В случае
невозможности дальнейшего
4. Семантический анализ
Семантический анализ строит семантическую структуру одного предложения. Семантическая структура состоит из семантических узлов и семантических отношений. Семантический узел - это такой объект текстовой семантики, у которого заполнены все валентности, как эксплицитно выраженные в тексте, так и имплицитные - те, которые получаются из экстралингвистических источников. Из определения следует, что семантический узел может быть построен только в самом конце семантического анализа. Собственно говоря, главная цель семантического анализа - построение семантических узлов, которое подразумевает заполнение всех валентностей.
Семантический анализ представляет собой выявление в тексте смысловых связей и групп. Этот тип анализа представляется в виде набора составляющих, направленных на выявление различных семантических связей.
Во-первых, это выделение именованных сущностей, объектов, которые имеют различную форму записи в тексте и могут принимать различные значения. Примерами именованных сущностей являются такие объекты как дата, физическое измерение, географическое название, название организации, имя персоны и т.п. В результате слову или группе слов приписывается атрибут, определяющий вид именованной сущности, и его в дальнейшем можно использовать для идентификации извлекаемой информации.
Второй полезной составляющей является механизм выявления семантических классов. К семантическому классу относится группа понятий, связанных с одной предметной областью и являющихся одной и той же частью речи. Например, семантический класс глаголов, связанных с производственной деятельностью человека.
Третий момент связан с расширением кореферентности в тексте. Под кореферентностью понимается ссылка разными словами на один и тот же объект действительности. Например, фраза «глава Российского государства» и «президент России» обозначает одно и то же лицо. Задача разрешения кореферентности сводится к автоматическому установлению референта для выражения (при наличии модели предметной области) или просто установлению кореферентной связи (признака того, что выражения ссылаются на одни и тот же объект) между выражениями.