История обработки естественного языка

Автор: Пользователь скрыл имя, 19 Января 2012 в 12:04, реферат

Описание работы

Для античности был характерен синкретизм мышления. Человек понимался как часть природы и общества. Человек отождествлялся мышлению, а мышление миру. Мир можно познавать через слова, поэтому речь также отождествлялась с мышлением. Мышление понималось только в словесно-логической форме. Языковое и мыслительное содержание не различались. Центральным понятием античного учения о языке был Логос – то, при помощи чего боги вступают в разговор с людьми.

Содержание

1. Предыстория.
2. История компьютерной лингвистики на Западе.
2.1. АОТ с 40-х годов XX века по 1965 г.
2.2. АОТ с 1966 по 1980 годы.
2.3. АОТ в 80-е и 90-е годы.
2.4. Современные результаты компьютерной лингвистики.
3. История компьютерной лингвистики в СССР и России.
3.1. До теории «Смысл↔Текст».
3.2. Теория «Смысл↔Текст».
3.3. 70-80-е годы.
3.4. Современное коммерческие системы.
4. Послесловие.
5. Использованная литература и другие источники.

Работа содержит 1 файл

История обработки естественного языка.docx

— 68.91 Кб (Скачать)

Питерским математиком Виталием Тузовым недавно  была создана модель естественного  языка, использующая упрощенный вариант  идей Мельчука. В модели Тузова сделана  попытка свести задачу извлечения информации из текста к задаче преобразования текста на формальном семантическом  языке во внутреннее представление  базы знаний.

Путь  идей к признанию иногда очень  долог и труден. Потребовалось  более тридцати лет, чтобы перейти  к реальным разработкам на основе созданной Валентином Турчиным теории суперкомпиляции . Сменилась элементная база, появились совершенно новые  технологии программирования, и то, что раньше многие причисляли к нереализуемым  теоретическим изыскам, становится востребованным. Возможно, такой же путь ждет и теорию Мельчука. Наверное, неслучайно похожи судьбы этих ученых.

Компьютерная  лингвистика стремительно развивалась  в СССР в 1960-е годы. Однако в следующем  десятилетии работы в области  машинного перевода оказались под  жестким государственным контролем. В отличие от атомного проекта (время  уже было другое), этот контроль не сконцентрировал  силы отечественных ученых, а наоборот, способствовал прекращению или  замедлению многих работ. Явная «нелюбовь» властей того времени к одному из ярчайших представителей отечественной  лингвистики Юрию Апресяну на долгие годы затормозила самый интересный из отечественных проектов. Исследования по машинному переводу в ИПМ им. М. В. Келдыша тоже практически прекратились…

3.3. 70-е-80-е  годы.

С середины семидесятых годов во всем мире наблюдается  устойчивое возрастание интереса к  машинному переводу. В Москве в 1974 в институте ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-русского перевода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2). В том же году создается  Всесоюзный центр переводов (ВЦП), в  котором ряд научных коллективов  работает над системами машинного  перевода – АМПАР (англо-русский  перевод), НЕРПА (немецко-русский перевод) и ФРАП (французско-русский перевод). С этого времени промышленные системы машинного перевода разрабатываются  и широко используются в США, Европе и Японии.

Системы семейства ЭТАП работали в режиме качественного перевода на основе полного  синтаксического анализа и в  режиме пословного перевода, в процессе которого привлекался только морфологический  анализ. Второй вариант использовался  в тех случаях, когда возникали  проблемы с синтаксическим анализом фразы. По архитектуре системы семейства  ЭТАП относятся к системам машинного  перевода с трансфером: анализ-преобразование (трансфер)-синтез. Однако в идеологии  их построения имеются важные концептуальные особенности: в качестве теоретической  основы положены постулаты модели «Смысл↔Текст», предполагающей независимое лингвистическое  описание от алгоритмов программы, отказ  от привязки синтаксиса и морфологии к конкретной проблемной сфере (разумеется, словаря это касается в меньшей  степени). В СМП ЭТАП-1 перевод  происходит через поверхностно-синтаксическую структуру, а в СМП ЭТАП-2 перевод  осуществляется на уровне нормализованных  синтаксических структур, которые занимают промежуточное положение между  поверхностно-синтаксической и глубинно-синтаксической структурами.

Начало  работ над системой ФРАП относится  к 1975 г. В этом году во Всесоюзном центре переводов начала работать группа исследователей под руководством Н.Н. Леонтьевой. В  техническом задании к системе  указывалось, что СМП должна обеспечивать перевод небольшого количества документов, не имеющих жестких тематических ограничений. Такая постановка задачи существенно осложнила разработку системы, поскольку большинство  имеющихся реально работающих СМП  привязаны к конкретной проблемной области. Было реализовано две экспериментальные  версии системы (полная версия – в 1980 г., вторая – в 1985 г.). Архитектура  СМП ФРАП основывалась на стратегии  перевода через язык-посредник семантического типа. Синтаксический анализ в системе  не обязательно должен всегда давать правильные синтаксические структуры, однако на этапе работы семантического блока даже неправильные и неполные синтаксические структуры получают семантическую интерпретацию, которая  далее преобразуется в текст  на выходном языке. Иными словами, выбранная  стратегия оказывается «помехоустойчивой». Синтаксический компонент системы  не зависим от конкретной проблемной области; роль связующего мостика между  разными тематическими областями  выполняет семантический компонент. В существующем варианте системы  реализована лишь часть модели, выполняющая следующие функции: построение посрочника, грамматический режим, неполный семантический режим.

Теоретическая особенность СМП ФРАП заключается  в том, что в процессе работы системы  текст входного языка интерпретируется не только на семантическом, но и на информационном уровне – в терминах категорий тезауруса той проблемной области, которая в данный момент обслуживается системой. Информационный уровень представления должен обеспечивать в перспективе и построение реферата по тексту перевода.

Переводческий комплекс АНРАП структурно состоит  из двух больших систем – АМПАР (англо-русский  перевод) и НЕРПА (немецко-русский  перевод), разрабатывавшихся с конца 50-х гг. разными научными коллективами. Объединение этих систем связано  с общим программным обеспечением, общим русским словарем и общим  блоком русского морфологического синтеза. Переводческий комплекс предназначен для использования в крупных  информационных службах и переводческих  организациях для перевода текстов  различных тематических областей. Для  обеспечения тематической привязки предусматривается возможность  подключения дополнительных терминологических  словарей, описывающих конкретные тематические сферы. Система АМПАР занимает центральное  положение в комплексе АНРАП. Теоретические основания СМП  АМПАР были заложены в исследованиях  И.К.Бельской. Руководили проектной  группой АМПАР сначала Ю.А.Моторин  и позже Ю.Н.Марчук. В промышленную эксплуатацию система принята в 1981 году. На 1987 г. Система была установлена  в ВЦП и пяти отраслевых организациях. СМП НЕРПА сдана в промышленную эксплуатацию в 1985 году. Технологически в системах АМПАР и НЕРПА реализована  прямая стратегия  перевода, опирающаяся  на значительные по объему словари. В  СМП АМПАР программа взаимодействует  с шестью различными словарями: 1) английский морфологический словарь; 2) словарь  фразеологических выражений; 3) переводной словарь однозначных слов; 4) переводной словарь многозначных слов, представленных в виде процедурных правил выбора значений; 5) словарь перевода многозначных слов по умолчанию; 6) словарь русских  слов с морфологической, словообразовательной и синтаксической информацией. Обращение  к каждому словарю образует отдельный  цикл. Скорость перевода довольно высока (3-5 авторских листов в час), что  является необходимым условием функционирования промышленных систем машинного перевода, однако качество перевода невысоко. Постредактирование переводов оказывается необходимым.   

3.4. Современные коммерческие  системы.

Львиную долю российского рынка систем машинного  перевода составляют продукты компаний PROMT и ABBYY(Lingvo).  

В основу фундамента технологии перевода PROMT были заложены формализм расширенных сетей переходов (ATN – Augmented Transition Network) и использование двух «переводческих технологий» в одном продукте – технологии машинного перевода (Machine Translation) и технологии Translation Memory. Эффект от взаимного применения двух технологий позволяет обеспечить практически 100%-ное качество перевода при работе с повторяющимися текстами.

  

 Программы,  разработанные на основе технологии  машинного перевода осуществляют  связный перевод текста, используя  определенные лингвистические алгоритмы.  Сначала система анализирует  структурные элементы входного  предложения, затем преобразует  его в соответствии со структурой  языка и синтезирует окончательный  вариант. Кроме того, для повышения  качества перевода программа  должна уметь распознавать устойчивые  выражения, а также иметь большой  словарный запас. Для перевода  тематических  текстов обычно  требуется подключать специализированные  словари. С помощью систем с  технологией машинного перевода  можно быстро получить черновой  вариант перевода, отражающий общий  смысл текста.

   

Translation Memory – технология, использующая базу данных, где хранятся выполненные профессионалом переводы в виде сегментов текста оригинал-перевод. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. Технология работает по принципу накопления: в процессе перевода в базе сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то перевод этого сегмента отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в базе. В результате необходимость в повторном переводе одного и того же предложения отпадает.  

4. Послесловие.

Мы пока не знаем, какие возможности даст человечеству надвигающаяся новая  компьютерная революция. Однако можно  надеяться, что компьютерная лингвистика  перейдет на совершенно новую технологическую  базу, основа которой закладывается  в наше время.      
 
 
 

5. Использованная литература  и другие источники:  

  1. P.J.Hancox, Natural Language Processing, modul SEM1A5, School of  Computer Science   University of Birmingham, 1995/96.
  2. Jyunichi Tsujii, History of Natural Language Processing, Monthly Issue “Language & Computer”, Tokyo, 2000.
  3. http://ru.wikipedia.org/wiki/
  4. www.promt.ru
  5. А.Чеповский, «Неразрешимая проблема компьютерной лингвистики», «Компьютера» №30 от 02 августа 2002 года, Москва.

      6. А.Н.Баранов, «Введение в прикладную  лингвистику», ЛКИ, Москва, 2007 год.

Информация о работе История обработки естественного языка