История обработки естественного языка

Автор: Пользователь скрыл имя, 19 Января 2012 в 12:04, реферат

Описание работы

Для античности был характерен синкретизм мышления. Человек понимался как часть природы и общества. Человек отождествлялся мышлению, а мышление миру. Мир можно познавать через слова, поэтому речь также отождествлялась с мышлением. Мышление понималось только в словесно-логической форме. Языковое и мыслительное содержание не различались. Центральным понятием античного учения о языке был Логос – то, при помощи чего боги вступают в разговор с людьми.

Содержание

1. Предыстория.
2. История компьютерной лингвистики на Западе.
2.1. АОТ с 40-х годов XX века по 1965 г.
2.2. АОТ с 1966 по 1980 годы.
2.3. АОТ в 80-е и 90-е годы.
2.4. Современные результаты компьютерной лингвистики.
3. История компьютерной лингвистики в СССР и России.
3.1. До теории «Смысл↔Текст».
3.2. Теория «Смысл↔Текст».
3.3. 70-80-е годы.
3.4. Современное коммерческие системы.
4. Послесловие.
5. Использованная литература и другие источники.

Работа содержит 1 файл

История обработки естественного языка.docx

— 68.91 Кб (Скачать)

2.4. Современные результаты  компьютерной лингвистики.  

Результаты  нового подхода должны быть обработаны и подвергнуты анализу.

Возможно  ли описать грамматику, которая соприкасается  с таким широким набором языковых феноменов? Возможно ли получить достаточно лингвистических данных?

Во многих случаях у исследователей недостает  данных для анализа лингвистических  феноменов в результате разбросанного  характера данных. Например, когда  они пытаются определить вероятность  для каждой из пар последовательно  идущих терминов, они не могут найти  лингвистических данных с какими-то из таких пар, хотя такие сочетания  являются правильными с точки  зрения языка. Один из подходов состоит  в улучшении точности приближения  путем статистической обработки  небольших рабочих образцов.

В реальности, исследователям приходится работать с  низкокачественными данными в сопоставляемых для перевода парах. Когда данные не могут быть сопоставлены, используются двуязыковые корпуса в той  же предметной области.  Как минимум  для решения проблемы требуются  словари для базовых лексиконов и быстрые компьютеры с большим  объемом памяти. При этом парадигмы  машинного обучения выглядять на сегодняшний день мало подходящими  для целей АОТ.    
 
 

3. История компьютерной  лингвистики в  СССР и России.  

3.1. До теории «Смысл↔Текст». 

Компьютерная  лингвистика родилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному  переводу. В те же времена под  руководством крупнейшего математика и кибернетика Алексея Ляпунова начались активные работы по машинному  переводу и в Москве. В созданную  Ляпуновым группу вошли, в частности, тогдашние студенты и аспиранты, будущие «родители» отечественной  компьютерной лингвистики Игорь  Мельчук и Ольга Кулагина.

Впрочем, основа для успехов отечественных  ученых закладывалась намного раньше. В 1920-х годах в России велись интенсивные  исследования по семиотике текста, в то время как широкомасштабное изучение семиотики во всем мире относится  только к началу 1960-х годов (что  в значительной мере связано с  работами эмигрировавшего из России в 1920 году создателя структурной  лингвистики Романа Якобсона). Стремительный  прогресс семиотики стал основой  для сближения лингвистики и  математики на почве популярного  в 1950-60-е годы математического структурализма, в духе предельно формализованных  математических структур Бурбаки. Идеи семиотики объединяли крупнейших ученых, среди которых математик Владимир Успенский и лингвист Вячеслав Иванов. )Успехи формального подхода к описанию языка наглядно продемонстрировали возможность превращения чисто гуманитарной науки в логически строгую дисциплину.

Работы  по кибернетике и, в частности, по структурной лингвистике, развернутые  в конце 50-х годов под руководством академика Акселя Берга и члена-корреспондента АН СССР Алексея Ляпунова, вывели отечественную  науку на передовые позиции. Уже  в начале 1956 года в Институте прикладной математики (ИПМ) им. М. В. Келдыша заработала первая отечественная система машинного  перевода с французского на русский  язык. Система ФР-I давала перевод  явно более высокого качества, чем  у американцев. Интересно, что математики рассматривали алгоритмы машинного  перевода как частные случаи изучаемых  в кибернетике алгоритмов перекодирования.

Огромное  значение имело выработанное Алексеем Ляпуновым и Ольгой Кулагиной  теоретико-множественное представление  грамматических категорий языка. Эти  результаты были получены независимо от работ Ноама Хомского (Noam Chomsky), считающегося создателем теории формальных грамматик. Большую роль сыграли  работы Игоря Мельчука по автоматическому  грамматическому анализу. Обобщения  и систематизация результатов математической лингвистики позволили создать  стройную теорию формальных языков. Проблема заключалась в одном: аппарат  теории формальных языков был очень  хорош для искусственных языков, в частности для языков программирования, но не давал приемлемых результатов  для анализа естественного языка  и построения адекватной системы  машинного перевода.

Впоследствии  сам Мельчук признал, что работы по автоматическому синтаксическому  анализу русского языка были «абсолютно тупиковые». А могло ли быть иначе? Искусственные языки специально создаются так, чтобы было удобно манипулировать формальными конструкциями, описывающими «прозрачную» семантику, которая сводится, как правило, к  конкретным действиям. Таковы алгоритмические  языки в программировании. В естественном языке есть нечто большее - буквальная семантика, с которой и связано  понимание человеком текста. Понимание  это может быть не таким уж простым  даже для носителя языка и связано  с мыслительными процессами, а  не с формальными правилами описания самого языка. Поэтому для автоматического перевода надо уметь описывать смысл фразы, а не ее формальную запись.

Очевидные сегодня идеи были выстраданы и обнародованы несколько десятилетий назад  Игорем Мельчуком и Александром  Жолковским. Разработка ими лексических  функций, создание теории «Смысл<->Текст» явились колоссальным скачком в  построении строгой концептуальной системы, применимой для анализа  естественного языка.

   

3.2. Теория «Смысл<->Текст».

По замыслу  её создателей, ТСТ является универсальной  теорией, то есть может быть применима  к любому языку. На практике основным материалом для неё служил русский  язык; в 1980-е и последующие годы теория разрабатывалась применительно  к данным английского и французского языков. Фрагменты морфологических  описаний, выполненных в рамках идеологии  ТСТ, имеются для более значительного  числа типологически разнородных  языков.

Теория  «Смысл ↔ Текст» представляет собой  описание естественного языка, понимаемого  как устройство («система правил»), обеспечивающее человеку переход от смысла к тексту («говорение», или  построение текста) и от текста к  смыслу («понимание», или интерпретация  текста); отсюда символ двунаправленной  стрелки в названии теории. При  этом приоритет в исследовании языка  отдаётся переходу от смысла к тексту: считается, что описание процесса интерпретации  текста может быть получено на основе описания процесса построения текста. Теория постулирует многоуровневую модель языка, то есть такую, в которой  построение текста на основе заданного  смысла происходит не непосредственно, а с помощью серии переходов  от одного уровня представления к  другому. Помимо двух «крайних» уровней  — фонологического (уровня текста) и семантического (уровня смысла), выделяются поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический и глубинно-синтаксический уровни. Каждый уровень характеризуется  набором собственных единиц и  правил представления, а также набором  правил перехода от данного уровня представления к соседним. На каждом уровне мы имеем дело, таким образом, с особыми представлениями текста — например, глубинно-морфологическим, поверхностно-синтаксическим и т. п.

Семантическое представление является неупорядоченным  графом («сетью»), синтаксические представления  являются графическим деревом («деревом зависимостей»), морфологическое и  фонологическое представления линейны.

Наиболее  оригинальными чертами ТСТ является её синтаксическая теория, теория лексических  функций и семантический компонент  — Толково-комбинаторный словарь.

Синтаксический  компонент ТСТ предусматривает  существование двух синтаксических уровней — поверхностного и глубинного. Для описания синтаксических отношений  используется аппарат синтаксиса зависимостей (восходящий к Л. Теньеру); большое  значение имеет (также восходящее к  Теньеру) противопоставление актантов и сирконстантов. Выделяется большое  число (несколько десятков) так называемых поверхностно-синтаксических отношений  и небольшое число глубинно-синтаксических. Синтаксис ТСТ в большой степени  проникнут семантикой (в глазах критиков это его очень существенный недостаток, в глазах сторонников — напротив, одно из главных достоинств); он во многом выводится из структуры толкования, в которой задается модель управления лексемы и перечисляются её сочетаемостные свойства.

В целом  можно сказать, что синтаксическая теория в рамках ТСТ — это прежде всего описание устройства предикатной  группы, то есть особенностей глагольного  управления. Именно этим объясняется  тесная связь с лексической семантикой: как хорошо известно, классификация  глаголов по синтаксическим свойствам  часто имеет семантические корреляты. Такого рода исследований в европейской  и американской лингвистике во время  создания ТСТ было относительно немного; важность семантической классификации  лексики стала осознаваться позднее. С другой стороны, те области, которые  в основном исследовались западными  синтаксистами (и теми российскими  синтаксистами, которые работали в  иных теоретических рамках), в ТСТ  почти не были отражены: это, например, синтаксис полипредикатных конструкций (как финитных, так и нефинитных) и так наз. синтаксические процессы (анафора, рефлексивизация, эллипсис и  т. п.).

Толково-комбинаторный  словарь — одно из главных теоретических  изобретений Мельчука. В каком-то смысле можно сказать, что языковая модель по Мельчуку вообще имеет тенденцию  представлять язык как совокупность словарных статей с огромным количеством  разнообразной информации; грамматические правила при таком словаре  играют скорее второстепенную роль. В  то время, когда создавалась ТСТ, такой подход был новым, семантическая (и тем более лексикографическая) информация не считалась важной для  построения грамматических описаний.

В Толково-комбинаторный  словарь входило толкование слова  и его модель управления. Толкование представляло собой запись на формализованном  метаязыке; семантически более сложные  элементы объяснялись через более  простые. Предполагалось (как и в  теории А. Вежбицкой), что существуют элементарные смыслы, далее неразложимые — семантические примитивы; но, в  отличие от опытов А. Вежбицкой, в  ТСТ семантические примитивы  практически не использовались. Также  в отличие от А. Вежбицкой, признавались искусственные элементы семантического метаязыка (например, для выражения  общего значения каузации использовался  искусственный глагол каузировать).

Модель  управления содержала информацию обо  всех семантических и синтаксических актантах слова и о способах их морфологического и синтаксического  выражения. Большую часть словарной  статьи занимало описание лексических  функций — понятие, придуманное  Жолковским и Мельчуком для описания того, что они называли «нестандартной сочетаемостью». Так, считалось, что  в выражениях круглый дурак и проливной дождь прилагательное имеет одно и то же значение, выражая одну и ту же «лексическую функцию» (в ТСТ она называлась Magn). Было выделено несколько десятков лексических функций, подлежащих описанию в Толково-комбинаторном словаре.

Теория  «Смысл ↔ Текст» с самого начала создавалась с сильным акцентом на прикладной проблематике автоматического («машинного») перевода — по замыслу  Мельчука, с её помощью, в отличие  от традиционных нестрогих теорий, следовало обеспечить построение «действующей»  модели языка. Само возникновение этой теории было связано с началом  работы Мельчука над машинным переводом (в Лаборатории машинного перевода при МГПИИЯ под руководством В. Ю. Розенцвейга) и его неудовлетворённостью существующими теориями; с другой стороны, предполагалось, что программы  машинного перевода будут на эту  теорию опираться. ТСТ действительно  была использована в некоторых системах машинного перевода, разработанных в России — прежде всего, в системе англо-русского автоматического перевода ЭТАП, созданной уже после эмиграции Мельчука группой под руководством Ю. Д. Апресяна. Некоторые элементы идеологии ТСТ были также использованы в ряде других систем машинного перевода, создававшихся в 1960—1970-е гг. во Всесоюзном центре переводов под руководством Н. Н. Леонтьевой, Ю. С. Мартемьянова, З. М. Шаляпиной и др. Все эти системы относятся к числу экспериментальных, то есть их промышленное использование не представляется возможным.

Значение  ТСТ в истории лингвистики  оценить непросто. Её последователей в настоящее время мало, и интерес  к этой теории со стороны молодого поколения лингвистов крайне незначителен. На Западе эта теория известна плохо  за пределами узкой группы ближайших  учеников и сотрудников Мельчука; даже доброжелательные рецензенты называют Мельчука «великим аутсайдером». В  России с критикой этой теории выступают  многие синтаксисты, ориентирующиеся  на генеративную идеологию (как, например, Я. Г. Тестелец). С их точки зрения, ТСТ вообще не является лингвистической  теорией, поскольку не содержит «правил» и «обобщений» в духе последних  построений Хомского, а содержит только эмпирические правила, не мотивированные никакими соображениями «универсальной грамматики».

В то же время, с не менее острой критикой ТСТ выступают и те российские лингвисты, кто (как, например, А. Е. Кибрик) придерживается функционального и  когнитивного подхода. Критики этого  направления указывают на слишком  жёсткую и механистическую идеологию  ТСТ, не признающую континуальности  в языке, не стремящуюся к поиску объяснений наблюдаемых фактов, не учитывающую дискурсивных и когнитивных  механизмов функционирования языка.

Если  в ряде важных идеологических отношений  ТСТ представляется нынешнему поколению  лингвистов в целом устаревшей, то роль Мельчука и его теории в истории  отечественной лингвистики вряд ли может быть преуменьшена. В момент создания это была по существу первая после долгого перерыва российская теория языка, находившаяся на уровне мировых достижений, и в этом смысле Мельчук может считаться прямым продолжателем традиции Якобсона и  Трубецкого. Личная роль Мельчука —  бесспорного неформального лидера отечественной лингвистики 1960—1970-х  гг. — в изменении научного климата  в СССР также очень велика. И  если ТСТ в том виде, как она  была создана Мельчуком, и сходит со сцены, то косвенное влияние её на российскую лингвистику следует  всё же считать значительным. По-видимому, наиболее плодотворным воплощением  этой теории в начале XXI в. является Московская семантическая школа, привнёсшая целый ряд радикальных новшеств в лексикографическую теорию и практику.

Информация о работе История обработки естественного языка