Компьютерный перевод как один из элементов прикладной лингвистики и его роль в работе по созданию искусственного интеллекта

Автор: Пользователь скрыл имя, 14 Марта 2011 в 21:34, статья

Описание работы

Широко распространено мнение, что компьютеры – это математические машины, предназначенные для выполнения численных расчетов. В действительности компьютеры представляют собой языковые машины. Их сильной стороной является способность манипулировать лингвистическими знаками, которым приписан некоторый смысл. Естественный язык занимает центральное место в информатике. Ранние работы в этой области были связаны с автоматизацией раскрытия военных шифров.

Работа содержит 1 файл

машинный перевод.doc

— 88.00 Кб (Скачать)
 

      КомпьютернЫЙ ПЕРЕВОД как один из ЭЛЕМЕНТОВ ПРИКЛАДНОЙ ЛИНГВИСТИКИ И ЕГО РОЛЬ В РАБОТЕ ПО созданиЮ искусственного интеллекта. 

      Широко  распространено мнение, что компьютеры – это математические машины, предназначенные для выполнения численных расчетов. В действительности компьютеры представляют собой языковые машины. Их сильной стороной является способность манипулировать лингвистическими знаками, которым приписан некоторый смысл. Естественный язык занимает центральное место в информатике. Ранние работы в этой области были связаны с автоматизацией раскрытия военных шифров. В 50-е годы усилия были направлены на разработку автоматических переводчиков с одного естественного языка на другой. И хотя первоначальная цель так и не была достигнута, эти работы серьезно продвинули решение проблемы естественно-языкового общения с ЭВМ. В настоящее время разрабатываются грандиозные проекты по использованию естественного языка в качестве средства «общения» с компьютерами.

      С момента появления ЭВМ между  ней и человеком возник семантический барьер, который на всем протяжении развития средств вычислительной техники подвергается атакам специалистов. Уменьшение разрыва идет, с одной стороны, по пути от машинно-ориентированных кодов через алгоритмические языки, языки логических преобразований в направлении к логико-семантическим и семантическим языкам. Последние два базируются на идеях искусственного интеллекта и таким образом включаются в модели познавательного процесса. С другой стороны, уменьшение разрыва идет по пути поиска новых методов обработки естественного языка.

      Компьютерная  лингвистика изучает применение математических моделей для описания лингвистических закономерностей. Она изучает способы применения вычислительной техники в лингвистических исследованиях (например, статистическая обработка) для выявления закономерностей, а также проблемы осмысления текстов, написанных на естественном языке, — создание математических моделей для решения лингвистических задач и разработка программ, функционирующих на основе этих моделей. Эта часть компьютерной лингвистики тесно соприкасается с разделом искусственного интеллекта, занимающегося разработкой систем обработки текстов на естественном языке.

      Одной из главных задач, стоящих перед  создателями интеллектных систем, является придание языку такой формы, которая позволила бы ввести его в компьютер для дальнейшей обработки, следуя заданной цели. Традиционное филологическое изучение языка мало что предложило создателям интеллектных систем. Более плодотворным оказалось обратное влияние, открывшее в языке аспекты, которые ранее ускользали от внимания лингвистов и которые потребовали нового подхода к изучению языка. В последние годы сформировалось новое направление исследований по реализации на ЭВМ теоретических лингвистических моделей, получившее название компьютерной лингвистики.

      Компьютерная  лингвистика тесно связана с  центральной проблемой искусственного интеллекта - электронным представлением знаний. Основная задача компьютерной лингвистики - построение логико-лингвистических  моделей и соответствующих им алгоритмов и программ.

      Компьютерная лингвистика является одним из тех направлений научной деятельности, где пересекаются исследования ученых, настолько различных во всем — от воспитания до общего мироощущения, что даже толкование самых общих терминов вызывает бурную дискуссию.

      Лингвистические компьютерные программы, обрабатывающие произвольный текст, традиционно считаются вотчиной искусственного интеллекта. Многие годы результаты работы ученых не были видны обычным пользователям. Пожалуй, первыми коммерческими системами искусственного интеллекта стали электронные переводчики. Первые опыты по машинному переводу начались в 50-х годах, но уже очень скоро стало ясно, что создать хорошую систему перевода очень сложно, и даже почти невозможно.

      Трудности в реализации программы машинного перевода и построении систем искусственного интеллекта, во многом связанные с не всегда удачными попытками формализации сферы употребления языка, привели исследователей к осознанию необходимости более углубленных исследований в этой области. В процессе работы над созданием современных компьютерных систем, решающих интеллектуальные задачи (в частности, понимания текстов на естественном языке), на первый план выдвигается проблема представления знаний. Знание – это результат адекватного отражения действительности человеком в виде представлений, понятий, теорий, суждений. Применительно к компьютерной системе знание - это адекватное описание действительности, конкретной предметной области на естественном или искусственном языке. На уровне представления знаний в компьютерной системе отражены как отдельные элементы знания, так и связи между ними.

      Таким образом, в идеале, представив совокупность знаний в виде понятного для ЭВМ машинного кода, можно получить эффективный инструмент всестороннего анализа различной информации.

      Компьютерная  лингвистика получила широкое распространение  особенно в последние годы благодаря  чрезвычайно интенсивному развитию информационных технологий. На современном  этапе она применяется для  решения ряда глобальных и множества текущих задач. Основными сферами использования компьютерной лингвистики считаются исследования в области развития компьютерной обработки текста, машинного и электронного переводов, а также порождения текста компьютером.

      Системы искусственного интеллекта, машинного перевода, автоматического порождения текстов не могут обойтись без лингвистической базы знаний, которая является своего рода лингвистической основой компьютерных программ и представляет собой формальную модель языка, включающую лексические, грамматические и синтаксические знания определенного естественного языка в какой-либо предметной области. Компьютерные программы, построенные с использованием лингвистической базы знаний, способны решить задачи по машинному переводу, порождению текста определенной тематики, аннотированию или реферированию текста, и т.п. На современном этапе многие из поставленных задач уже решаются весьма успешно.

      Проблема  искусственного интеллекта в целом и машинного понимания текстов в частности является междисциплинарной. Над ней работают помимо специалистов в области информатики и вычислительной техники лингвисты, психологи, физики и учёные других специальностей. Междисциплинарность теории перевода и ее практических приложений указывают на то, что перевод является не чисто языковым, а довольно сложным когнитивным феноменом. Переводя с одного языка на другой, человек использует как свои языковые знания и способности, так и самые разнообразные экстралингвистические знания (о физической природе мира, об обществе и его культуре и т.д.).

      Многие  из поставленных задач постепенно обрели статус глобальных, достижение же некоторых  целей стало лишь вопросом времени. Так, например, проблема создания универсального электронного переводчика с одного естественного языка на другой, на сегодняшний день, рассматривается как практически неразрешимая, ввиду огромного количества осложняющих факторов: разнообразие стилей, пластов лексики, специфики авторского употребления словоформ и индивидуальности литературного слога. Но определенные достижения в области машинного перевода уже имеют место быть, а их эффективность уже не вызывает сомнений. Так, например, перевод специальных и технических текстов уже успешно осуществляется при помощи ЭВМ. Сегодня, имея под рукой соответствующий словарь терминов и правильно настроенный переводчик, можно качественно обработать любой иноязычный технический текст. Существует немало интерактивных систем подобного же назначения, которые работают прямо в сети Интернет. Во многом это стало возможно благодаря доскональной проработке модели перевода. В нее включаются, как правило, все процедуры, которые используются в такой работе человеком.

      Эволюция  систем компьютерного перевода текстов  с одного естественного языка  на другой наглядно и весьма красноречиво демонстрирует эффективное и достаточно интенсивное продвижение в развитии различных аспектов компьютерной лингвистики. Как уже отмечалось выше, компьютерная лингвистика является предметной областью деятельности специалистов разных направлений. И только при условии их скоординированных и целенаправленных исследований возможно продвижение не только компьютерной, но и прикладной лингвистики в целом.

    Говоря  об эффективности развития систем компьютерного  перевода текстов нельзя не затронуть  понятия корпусов параллельных текстов, которые являют собой так называемую «память переводов». Корпусная лингвистика — раздел языкознания, который занимается разработкой, созданием и использованием текстовых (лингвистических) корпусов. Данный термин впервые появился в 90-х годах XX века в связи с развитием практики создания корпусов, которому способствовало интенсивное развитие вычислительной техники.

    Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, стандартами и правилами и обеспеченных специализированной поисковой системой. Иногда корпусом называют любое собрание текстов, объединённых каким-либо общим признаком (языком, жанром, автором, периодом создания текстов).

    Целесообразность  создания текстовых корпусов объясняется:

    • представлением лингвистических данных в реальном контексте;
    • достаточно большой представительностью данных (при большом объёме корпуса);
    • возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.

    Наряду с объемными (представительными) корпусами, которые охватывают большой набор жанров и стилей, в лингвистических исследованиях часто используются и готовые коллекции текстов, например, газеты, новостные ленты, коллекции художественной литературы, тематический контент сети Интернет.

    Сегодня принцип лингвистических корпусов широко применяется при разработке компьютерного программного обеспечения  по автоматизации перевода. Автоматизированный перевод — перевод текстов с использованием компьютерных технологий. От машинного перевода он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством. В настоящее время наиболее распространенными способами использования компьютеров при письменном переводе является работа со словарями и глоссариями, памятью переводов, содержащей примеры ранее переведенных текстов, а также использование больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как те или иные слова и выражения реально используются в языке в целом или в конкретной предметной области.

      В узких предметных областях при большом  количестве исходных текстов и устоявшейся  терминологии переводчики могут  использовать и машинный перевод, который может обеспечить хорошее качество перевода терминологии и устойчивых выражений в узкой области. Переводчик в этом случае лишь осуществляет пост-редактирование полученного текста.

    Тексты, представленные в пределах лингвистических  корпусов на двух или нескольких языках, принято называть параллельными. Они составляют так называемую память переводов – базу данных, в которую входят ранее переведенные тексты. Этот принцип хранения и использования готовых корпусов параллельных текстов имеет большие преимущества перед другими технологиями, т.к. за основу принимается огромный пласт уже переведенных текстов, что можно сравнить с накоплением опыта человеческим разумом. Таким образом, появляется возможность автоматизации детального анализа частотности употребления языковых единиц как в исходных текстах, так и в их переводе, проведения сопоставления между элементами параллельных текстов с целью выявления некоторых семантических, грамматических, морфологических, синтаксических эквивалентов и их дальнейшего использования в автоматизированном или машинном переводе.

    Следовательно, помимо ускорения работы над переводом, системы памяти перевода также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно, например, при техническом переводе. Данная концепция предполагает выявление в заданном тексте фрагментов, переводы которых уже имеются в базе данных, и за счет этого происходит сокращение объема работы переводчика. Это выявление получило название выравнивания или сопоставления. Фрагменты, оставшиеся непереведёнными после выравнивания, передаются дальше для ручной обработки переводчику или системе машинного перевода. Переводчик на этом этапе может выделить вновь переведённые фрагменты и занести новые пары параллельных текстов на двух языках в базу данных. Такая схема наилучшим образом работает на однотипных текстах, где повторяемость словосочетаний достаточно высока. При машинном переводе процедура установления актуального значения слова опирается на предварительное исследование возможных диагностических контекстов для отдельных слов и для классов слов с одинаковой или аналогичной многозначностью. Эти контексты устанавливаются на основе словарных значений, двуязычных или многоязычных корпусов текстов, специализированных лексиконов. Параллельные тексты представляют в этом случае бесценную информацию для разработки соответствующих алгоритмов. В настоящее время производители систем автоматизированного перевода все большее внимание уделяют интеграции двух основных технологий — системы машинного перевода и систем, основывающихся на параллельных текстах. В процессе автоматического перевода программа сравнивает сегмент исходного текста с сегментами из подключенных баз переводов. В случае заданного процента совпадения (включая знаки препинания и стили форматирования текста) перевод фрагмента текста (сегмента) подставляется из базы переводов, а не отправляется на машинный перевод. К системе автоматизированного перевода может быть подключено несколько баз переводов. Согласно алгоритму перевода, система сначала анализирует базы перевода и только при отсутствии вариантов использует машинный перевод. Использование такого рода интегрированной технологии особенно эффективно в областях, связанных с переводом большого числа однотипных документов.

Информация о работе Компьютерный перевод как один из элементов прикладной лингвистики и его роль в работе по созданию искусственного интеллекта