Автор: Пользователь скрыл имя, 16 Марта 2013 в 12:35, курсовая работа
Перевод имеет долгую историю. Своими корнями он восходит к тем далеким временам, когда праязык начал распадаться на отдельные языки и возникла необходимость в людях, знавших несколько языков и способных выступать в роли посредников при общении представителей разных языковых общин[3]. Известный переводовед А. Д. Швейцер определяет перевод, как однонаправленный и двухфазный процесс межъязыковой и межкультурной коммуникации, при котором на основе подвергнутого целенаправленному ("переводческому") анализу первичного текста создается вторичный текст ("метатекст"),
Введение
Глава 1: Машинный перевод
1.Практическое задание.
Глава 2: История машинного перевода
Глава 3: Принципы работы систем машинного перевода
Глава 4: Классификация систем машинного перевода
4.1Задачи, которые решает система машинного перевода.
4.2.Программы машинного перевода.
Заключение
Список литературы
Наиболее совершенным
Однако, слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.
Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.
Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности, ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.
А к середине 1960-х в США для
практического использования
· MARK (в Департаменте иностранной техники ВВС США);
· GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
Однако созданная для оценки
подобных систем комиссия ALPAC пришла к
выводу, что в силу низкого качества
машинно переведенных текстов эта
деятельность в условиях США нерентабельна.
Хотя комиссия рекомендовала продолжать
и углублять теоретические
Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъему этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.
Впрочем, мечты, с которыми род людской взялся полвека назад за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз. В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода:
· FAMT (Fully-automated machine translation) - полностью автоматизированный машинный перевод;
· HAMT (Human-assisted machine translation) - машинный перевод при участии человека;
· MAHT (Machine-assisted human translation) - перевод, осуществляемый человеком с использованием компьютера.
В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Пиотровского (Российский государственный педагогический университет им. Герцена, Санкт-Петербург).
Глава 3: Принципы работы систем машинного перевода
Извлечение информации из текста производится на основании набора атрибутов: морфологических, синтаксических, лексических, семантических и т.п. Атрибуты не указаны в тексте в явном виде, их нужно предварительно получить. Для этого производятся различные виды анализа текста с целью выделения атрибутов, используемых алгоритмом извлечения информации. Анализ, как правило, носит многоуровневый характер и выполняется модулем лингвистического процессора. Обычно выделяют следующие составляющие анализа текста:
- графематический анализ (выделение слов и предложений);
- морфологический анализ;
- синтаксический анализ;
- семантический анализ;
- построение модели предметной
области (сценария или
На каждом уровне фрагментам текста
сопоставляются новые атрибуты. На
основании таких наборов
Теперь следует рассмотреть каждый
1. Графематический анализ
Графематический анализ - это программа начального анализа естественного текста, вырабатывающая информацию, необходимую для дальнейшей морфологической и синтаксической обработки. В задачу графематического анализа входят:
- разделение входного текста на слова, разделители и т.д.
- сборка слов, написанных в разрядку;
- выделение устойчивых оборотов, не имеющих словоизменительных вариантов;
- выделение фамилии, имени и отчества, когда имя и отчество написаны инициалами;
- выделение электронных адресов и имен файлов;
- выделение предложений из
- выделение абзацев, заголовков, примечаний.
2. Морфологический анализ
Алгоритмы морфологического анализа
делятся на две группы: словарные
и бессловарные. Бессловарные алгоритмы
более компактны и
Словарный метод предполагает наличие
словаря основ и флексий. По словарю
отыскиваются допустимые наборы атрибутов
для каждой графемы. В случае отсутствия
слова в словаре, выполняется
предсказание парадигмы (аналогично бессловарным
методам). Одной графеме может
соответствовать несколько
Еще несколько лет назад
3. Синтаксический анализ
Аналогию между системой языка и шахматами впервые предложил швейцарский лингвист Фердинанд де Соссюр. Как не меняются суть и правила игры в зависимости от размера доски или цвета фигур, так и сохраняют сходство грамматические структуры и законы внешне абсолютно разных языков. Белопольный слон никогда не займет черную клетку; каждое слово занимает только отведенное его роли место в структуре или линейном порядке предложения (например, в русском существительное не может стоять до предлога, от которого оно зависит). Любая удачная комбинация в партии есть продуманная последовательность ходов, где каждая фигура защищена другой, и если фигура удалена от «своих» и остается без защиты, она будет съедена или заперта фигурами противника, а партия проиграна. Грамматически верное и однозначное высказывание - результат хорошо построенной непрерывающейся структуры, где каждое слово имеет хозяина, и если слово не связано ни с одним из других слов в предложении, оно «выбивается» из контекста, искажая смысл всего высказывания.
Целью синтаксического анализа является построение синтаксических групп на одном морфологическом варианте одной клаузы, т.е. одного простого предложения в составе сложного.
Теоретическую лингвистику интересуют
сравнение грамматик
Сложность реализации высокоточного
анализатора связана с наличием
тесной связи между синтаксисом
и семантикой, присутствием в текстах
различных языков большого количества
синтаксически омонимичных
Чтобы разрешить проблему с анализом
синтаксически омонимичных
Поскольку одна словоформа может соответствовать
нескольким грамматическим формам слова,
в том числе формам различных
слов, в ходе анализа необходимо
производить свертку
Как показала практика, для снятия большей части омонимии (около 90%) не требуется полный синтаксический анализ, обеспечивающий полную свертку дерева. Достаточным оказывается включение правил согласования слов в именных и глагольных группах, свертки однородных членов, согласования подлежащего и сказуемого, предложно-падежного управления и нескольких прочих - всего в пределах 20-ти правил, описываемых бесконтекстной грамматикой.
Порядок применения правил управляется
алгоритмом разбора, который на каждом
шаге проверяет возможность
4. Семантический анализ
Семантический анализ строит семантическую
структуру одного предложения. Семантическая
структура состоит из семантических
узлов и семантических
Семантический анализ представляет собой выявление в тексте смысловых связей и групп. Этот тип анализа представляется в виде набора составляющих, направленных на выявление различных семантических связей.
Во-первых, это выделение именованных сущностей, объектов, которые имеют различную форму записи в тексте и могут принимать различные значения. Примерами именованных сущностей являются такие объекты как дата, физическое измерение, географическое название, название организации, имя персоны и т.п. В результате слову или группе слов приписывается атрибут, определяющий вид именованной сущности, и его в дальнейшем можно использовать для идентификации извлекаемой информации.
Второй полезной составляющей является механизм выявления семантических классов. К семантическому классу относится группа понятий, связанных с одной предметной областью и являющихся одной и той же частью речи. Например, семантический класс глаголов, связанных с производственной деятельностью человека.
Третий момент связан с расширением кореферентности в тексте. Под кореферентностью понимается ссылка разными словами на один и тот же объект действительности. Например, фраза «глава Российского государства» и «президент России» обозначает одно и то же лицо. Задача разрешения кореферентности сводится к автоматическому установлению референта для выражения (при наличии модели предметной области) или просто установлению кореферентной связи (признака того, что выражения ссылаются на одни и тот же объект) между выражениями.