Компьютерный перевод как один из элементов прикладной лингвистики и его роль в работе по созданию искусственного интеллекта

Автор: Пользователь скрыл имя, 14 Марта 2011 в 21:34, статья

Описание работы

Широко распространено мнение, что компьютеры – это математические машины, предназначенные для выполнения численных расчетов. В действительности компьютеры представляют собой языковые машины. Их сильной стороной является способность манипулировать лингвистическими знаками, которым приписан некоторый смысл. Естественный язык занимает центральное место в информатике. Ранние работы в этой области были связаны с автоматизацией раскрытия военных шифров.

Работа содержит 1 файл

машинный перевод.doc

— 88.00 Кб (Скачать)

      Чтобы практика компьютерных переводов прочно утвердилась в жизни необходимо выполнение группы условий технико-экономического и социально-информационного порядка. Технико-экономические условия включают: оснащенность современными компьютерами и программами для перевода; наличие соответствующих специалистов, способных обслуживать существующие программы и технику. Социально-информационные условия подразумевают: включение компьютерного перевода в сферу информационных услуг; градацию перевода по видам (напр., предварительная обработка текста, традиционный перевод, машинный перевод, постредактирование, оформление перевода и т.д.); классификацию перевода по типам переводимого материала (напр., литературный, научный, технический перевод, перевод, ориентированный на автора, перевод, ориентированный на читателя, перевод, предназначенный/непредназначенный для публикации, перевод полный, частичный, выборочный, реферативный, полностью эквивалентный и т.д.).

      Третья  группа условий для развития компьютерного перевода состоит в создании предпосылок для реализации моделей перевода. Машинный требует совершенствования собственно лингвистических моделей перевода, обеспечивающих представление и использование языковых данных для осуществления перевода с одного естественного языка на другой.

      Можно выделить два основных стимула к  развитию работ по машинному переводу в современном мире. Первый –  собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Эта характерная черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов. Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

      Современные системы машинного перевода могут быть отнесены к трем группам:

  1. системы, основанные на статистическом подходе, использующие обучающие наборы данных и параллельные корпуса; в этих системах роль человека в проектировании процессов формирования лингвистических знаний и разрешения неоднозначности сведена до минимума; правила автоматически извлекаются из текстов; также автоматически выявляются контекстные зависимости, на основании которых определяется значение неоднозначных слов или словосочетаний; достоинство этого подхода заключается в значительной или даже полной автоматизации процесса построения базы лингвистических знаний, однако, этот подход значительно осложняется тем, что автоматически выявленные правила часто избыточны, повторяют друг друга, поэтому необходима фильтрация и обобщение правил, что также требует участия человека;
  2. системы, в основе которых лежат детально разработанные человеком правила разбора и генерации естественного языка, использующие когнитивные модели, в том числе с глубинно-семантическими представлениями; основным ограничением этого подхода является невозможность построения эвристик, предусматривающих все возможные языковые конфигурации и правила разрешения неоднозначности слов и синтаксических структур для всех случаев; в настоящий момент в некоторые из этих систем правил также вводятся вероятностные расширения, призванные частично решить некоторые из указанных проблем;
  3. системы, которые основываются на логико-лингвистических правилах и стохастических моделях. Последний подход позволяет оптимально использовать преимущества как традиционных систем, основанных на правилах, так и вероятностных методов, которые применяются для тех классов языковых явлений, которые не могут быть достоверно описаны заранее составленными правилами. Поскольку структуры естественного языка во многих случаях бывают неоднозначными или многозначными, это приводит к множественности возможных переводов с одного языка на другой. Для разрешения неоднозначности используются вероятностные грамматики разбора, которые предлагают следующее решение: выбор наиболее вероятной интерпретации структуры в данном контексте.

      Машинный  перевод - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия. Системы машинного перевода обычно строятся модульно, где каждый модуль принимает на вход некоторое представление текста и вырабатывает свое выходное представление. Можно выделить следующие основные этапы перевода:

      1. Графематический анализ. Выделение слов, цифровых комплексов, формул и т.д. Это начальный анализ естественного языка, представленного в виде цепочки текстовых знаков, вырабатывающий информацию, необходимую для дальнейшей обработки Морфологическим и Синтаксическим процессорами. Графематический анализ работает с внешним представлением текста. Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. В задачу графематического анализа входят: разделение на слова, цифровые комплексы; выделение дат, электронных адресов URL, неизменяемых оборотов; выделение ФИО (фамилия, имя, отчество), когда имя и отчество написаны инициалами; деление на предложения, абзацы.

      2. Морфологический анализ. Построение морфологической интерпретации слов входного текста. Морфологический компонент осуществляет морфоанализ и лемматизацию русских словоформ. Лемма–это нормальная форма слова. Например, для существительных – это единственное число (если оно есть у существительного), именительный падеж. То есть лемматизация - приведение текстовых форм слова к словарным; а морфоанализ – приписывание словоформам морфологической информации.

      3. Фрагментационный анализ. Выделение в предложении синтаксических единств (фрагментов). Задача фрагментационного анализа состоит в выделении в предложении синтаксических единств (фрагментов). Фрагменты – это главные и придаточные предложения в составе сложного, причастные, деепричастные и другие обособленные обороты. Первая важная особенность фрагментов заключается в том, что их границы не пересекают синтаксические связи, соединяющие отдельные слова или словосочетания. Таким образом, при успешной работе фрагментационного анализа перед синтаксическим исключается возможность построения большого числа неправильных синтаксических связей, которые допускаются морфологией, синтаксисом и, возможно, семантикой. Второе важное свойство – членение предложения на фрагменты в большинстве случаев соответствует его делению на крупные семантические узлы. Так, результат фрагментационного анализа несет и некоторую семантическую информацию о предложении.

      4. Синтаксический анализ. Цель синтаксического анализа - автоматическое построение функционального дерева фразы, т.е. нахождение взаимозависимостей между разноуровневыми элементами предложения. На вход синтаксису подаются результаты морфологического анализа (каждой словоформе сопоставлено максимально возможное для данной словоформы множество морфологических интерпретаций) и фрагментационного анализа.

      5. Семантический анализ. Построение  семантического графа текста. В отличие от синтаксического анализа семантический этап использует формальное представление смысла составляющих входной текст слов и конструкций. Можно сказать, что создание полных систем машинного перевода для русского языка, использующих семантический анализ, является чрезвычайно актуальной задачей.

      6. Перевод входных словоформ (трансфер) и синтез выходных словоформ и предложения в целом на выходном языке.

      В идеале реализация всех этих основных этапов должна на выходе дать качественный перевод заданного текста с одного естественного языка на другой. Теоретически это возможно. Но практическая реализация данных положений осложняется разнообразием и «разношерстностью» языков мира. Как уже отмечалось выше, лишь скоординированная работа специалистов смежных сфер способна дать свои конкретные плоды.

      На  базе идеи об эффективности компьютерного  анализа текстов возникают и  более глобальные проекты. Так, непосредственная взаимосвязь автоматизированной обработки информации на разных языках с созданием искусственного интеллекта нашла свое отражение в проекте «Интерсемантика», в основу которого положена идея перехода в технических системах от побуквенного кодирования слов текста к единому международному цифровому кодированию семантического значения, которое несет каждое слово текста. Единый код семантики должен состоять из двух частей: кода чисто семантического значения, которое представлено данным словом именно в конкретном контексте, и кода параметров, который однозначно определяет все нюансы использования данной лингвистической единицы в конкретном предложении. Основной объем работ в таком случае будет состоять в разработке единого мирового классификатора понятий, который в последствии можно будет перманентно развивать под появляющиеся новые понятия. Построение баз данных и знаний при помощи единого кода семантики позволит принципиально по-другому осуществлять процессы поиска нужной информации. Ибо сам код уже содержит классификационные признаки представляемых понятий. Однако, самое основное, что обеспечит единый код семантики – это свободное использование возможностей единых интерактивных информационных технических систем пользователем с любым национальным языком, для которого имеется преобразователь на единый код семантики (ЕКС) и обратно. Использование автоматических преобразователей Язык–ЕКС–Язык позволит осуществлять взаимодействие пользователя с базами данных и знаний на любых других национальных языках, а также псевдопрямое общение (через текст с распознаванием и синтезом речи) с пользователем с другим национальным языком. Если в создаваемых интеллектуальных технических устройствах вся информация будет реализована непосредственно в едином коде семантики, то к этим устройствам смогут свободно обращаться и взаимодействовать с ними пользователи на любых национальных языках.

      Описанный выше принцип электронного межъязыкового  информационного взаимодействия посредством  интеллектуальных технических устройств, содержащих единую базу цифровых кодов семантики, представляется, на первый взгляд, как идеализированный. Однако соответствующие научные разработки ведутся учеными в разных частях планеты уже с 1996 года, и на сегодняшний день существуют определенные наработки в данном направлении, эффективность которых уже не вызывает сомнений. Создание столь глобальной системы в масштабах планеты, конечно, невозможно по ряду объективных факторов. Однако даже частичная реализация данного проекта внесла бы неоценимый вклад в процессы глобализации и межкультурного взаимодействия.

      В целом, проблема перевода с одного естественного  языка на другой существует с незапамятных времен, а с момента появления  ЭВМ будоражит умы ученых всего  мира, желающих автоматизировать процесс  межъязыковой трансформации информации. Если судить объективно, то некоторые проблемы автоматизации перевода абсолютно невозможно реализовать на практике, даже при условии исчерпывающей теоретической базы. Гибкость человеческого разума не позволяет подогнать под единый стандарт все возможные варианты употребления слов, словосочетаний и фразеологических оборотов. Ситуация осложняется и обилием диалектов и говоров. Поэтому, стопроцентного качества компьютерного перевода в определенных сферах достигнуть не удастся никогда. Но уж если брать в расчет сугубо коммуникативную функцию языка, то уже современные системы машинного перевода способны обеспечить достаточно приемлемое качество перевода. 
 

      ЛИТЕРАТУРА: 

      
  1. Базылев В.Н. «Философия» машинного перевода.// Вестник ВГУ. Серия Лингвистика  и межкультурная коммуникация.–2005. №2
  2. Баскакова И.В. Исследование и разработка архитектуры системы перевода. Магистерская диссертация. Новосибирский государственный технический институт, 2003.
  3. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры// Информационные технологии. -2000.- N 11.
  4. Роганов В.Р., Роганова С.М., Новосельцева М.Е. Мнтоды искусственного интеллекта для машинного перевода текстов. // Учебное пособие. Пензенский государственный университет. – 2007.
  5. Селиванова Е.А. Модель перевода в парадигмальном пространстве современной лингвистики. Текст, дискурс; проблемы перевода// Черкасский государственный университет. – 2002.
  6. Чипашвили Ш.Ш. Развитие единых информационных пространств и проблема единого понимания семантики информации. // Социальная информатика-99, Сборник научных трудов. – М. СТС, 1999.
  7. Шемякин Ю.И. Начала компьютерной лингвистики: Учеб. пособие. М.: Изд-во МГОУ, А/О "Росвузнаука", 1992.
  8. Шпаков А.А. Модель единого знания (Универсальная классификация). – М.: Издательство «Познавательная книга плюс», 1999.

Информация о работе Компьютерный перевод как один из элементов прикладной лингвистики и его роль в работе по созданию искусственного интеллекта