Квантитативная лингвистика

Автор: Пользователь скрыл имя, 04 Июня 2013 в 20:54, реферат

Описание работы

Квантитати́вная лингви́стика (англ. quantitative linguistics) — это раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) занимается исследованием процесса изучения языка, его изменения и сферы применения, а также структуры естественных языков.

Содержание

Введение

Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения …………….…. 4
Некоторые языковые лингвистические
законы ………………………………………………….….. 5
1.2. Стилистика ………………………………………….....7
2. Основные области приложения структурно-вероятностной модели языка ………………………………... 8
2.1. Авторизация атрибуция текста ……………........... 10
2.2. Авторизация текста: пример экспертизы ………. 11
Заключение
Список использованной литературы

Работа содержит 1 файл

Квантитативная лингвистика.docx

— 57.88 Кб (Скачать)

Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автоматического аннотирования и реферирования. Так, согласно статистико-дистрибутивному методу автоматического индексирования информативными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некоторую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).

Дешифровка кодированного текста. В процессе дешифровки также могут  использоваться данные о частоте  употребления графем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны  продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции  элементов кодированного текста; ср. деши-Фровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н.Д.Андреева. Близки к задачам дешифровки формальные процедуры «открытия» морфемного состава неописанного языка, предложенные 3. Харрисом.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.1Авторизация атрибуция текста.

 

Проблема авторизации текста относится  к числу классических проблем  филологического исследования. Часто  она рассматривается в рамках «количественной стилистики» —  стилеметрии. Авторизация включает как литературную, так и лингвистическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста. К субъективным факторам он относит:

а) субъективно-коммерческие;

б) субъективно-конъюнктурные;

в) субъективно-эстетические;

г) субъективно-психологические;

д) субъективно-идеологические факторы.

Есть и объективные факторы:

а) документально-рукописные (археологические);

б) исторические (биографии, свидетельства  современников);

в) историко-идеологические и сопоставительно-идеологические;

г) историко-стилистические;

д) художественно-стилистические;

е) лингвостилистические. Однако чисто  филологическое направление авторизации  не позволяет построить объективные  операциональные критерии анализа и атрибуции текста. К сожалению, большинство факторов, на которые обращает внимание В. В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.

 

2.2Перспектива объективизации экспертного  знания

 

Перспектива объективизации экспертного  знания была обнаружена в использовании  количественных, статистических методов  анализа текста. Пионером в этой области стал Н. А. Морозов, перу которого принадлежит опубликованная в 1915 г. работа «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематически связанную лексику слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, — а на служебные слова и слова тематически нейтральные. Дело в том, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.

В настоящее время развитие методик  авторизации текста наиболее продуктивно  проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей.

Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур, а также на выявлении некоторых  особенностей формальной структуры  текста, связанных с выражением типов  чужой и авторской речи. Соотношение  чужой речи (прямой, смешанной, вложенной) с авторской также оказывается стилеобразующим фактором. Эта характеристика стиля отражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE [Гринбаум 1996].

 

2.2Авторизация текста: пример экспертизы

Одна из наиболее распространенных областей использования знаний о  статистических закономерностях языковых явлений — экспертиза авторства  текста. Типологически можно представить  следующие базовые ситуации экспертного  анализа.

A. Множественная неопределенность. Имеется множество текстов или  их фрагментов. Необходимо установить, скольким авторам принадлежат  тексты, и атрибутировать каждый текст конкретному автору. Это, разумеется, наиболее сложный случай анализа.

Б. Сравнение по образцу. Имеется  пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).

B. Конкуренция образцов. Имеются  образцы текстов авторов X,Y,Z... . Необходимо установить, кто из них является автором текстов Т12,... ,Тn

Приводимая ниже экспертиза12) вписывается  в рамки случая В. Речь шла о  спорном авторстве. В качестве материала для исследования были получены тексты следующих произведений: «Следователь президента»; «Смоленская площадь»; «Безумные глаза»; «В погоне за невидимым убийцей»; «Незнакомец»; «Шакалы»; «Трудное решение».

Тексты были представлены в печатной и машиночитаемой форме (файлы в  формате DOS TEXT). Выборочное сравнение файлов и страниц печатных текстов произведений показало, что они полностью совпадают с точностью до разметки гарнитуры и фафических вьщелений в файлах. При компьютерной обработке символы разметки не учитывались.

Исходная проблема экспертизы была сформулирована следующим образом. Автором произведений «Безумные  глаза», «В погоне за невидимым убийцей», «Незнакомец» является Э. Плющихин, а произведений «Шакалы», «Трудное решение» — В. Непомнящий. Авторство произведений «Следователь президента», «Смоленская площадь» является предметом спора.

В процессе проведения экспертизы необходимо было подготовить ответ на следующие  вопросы:

  1. Есть ли специфические языковые особенности, отличающие произведения В. Непомнящего «Шакалы», «Трудное решение» от произведений Э. Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец», а также от спорной группы произведений — «Следователь президента», «Смоленская площадь»?
  2. Есть ли специфические языковые особенности, характерные одновременно для произведений Э.Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» и спорной группы произведений «Следователь президента», «Смоленская площадь», но не присущие произведениям В. Непомнящего «Шакалы» и «Трудное решение»?
  3. Можно ли считать, что выявленные языковые особенности являются существенной чертой авторских стилей названных писателей и могут использоваться при установлении авторства художественного текста?

В исследовании по экспертизе использовалась методика количественного анализа  квазисинонимичных лексем. Сущность методики заключается в выявлении авторских предпочтений в выборе из группы квазисинонимов — близких по значению слов или устойчивых словосочетаний (фразеологизмов). В литературоведении и структурной поэтике близкие методы привлекаются для характеристики стиля писателя и особенностей его видения мира. Интересную информацию об идиолекте писателя дает изучение частотных характеристик служебных и модальных слов. Так, частицы разве и неужели по-разному распределены в романах М. Булгакова «Мастер и Маргарита» и «Белая гвардия»: разве значительно чаще встречается в «Мастере и Маргарите», а неужели — наоборот. Значение частицы разве предполагает более активную, действенную позицию говорящего, подвергающего сомнению некоторое положение дел. В противоположность разве частица неужели скорее указывает на то, что некоторое положение дел практически принимается говорящим и он лишь недоумевает, удивляется, почему оно имеет место. Учитывая значение этих частиц, указанные факты распределения разве и неужели можно интерпретировать как лингвистический коррелят авторской позиции в изображении событий и действий героев: нечто вроде пассивного «изумления», «удивления» автора в «Белой гвардии» и при активном восприятии реальности в «Мастере и Маргарите».

Такие «всплески» распределения частот служебных и модальных слов характеризуют  не только отдельные тексты художественной прозы, но и оказываются характерологическими для одного писателя, оказываясь поверхностным  проявлением его идеологической и творческой позиции. Явная нестандартность  распределения частоты некоторых  служебных слов наблюдается и  в произведениях Ф. М. Достоевского.

В художественных текстах Достоевского мы встречаемся с совершенно иной ситуацией: на одно употребление по меньшей мере приходится 342,5 употреблений по крайней мере (по крайней мере — 685 вхождений по 35 художественным текстам, по меньшей мере — 2 вхождения по 35 художественным текстам). Всего употреблений по меньшей мере три, но одно из них приходится на контекст, более подходящий для по крайней мере

В противоположность по меньшей мере, по крайней мере с несомненностью относится к словам Достоевского. Конкордансы на это словосочетание занимают более двухсот страниц текста.

Можно было бы подумать, что в русском  языке времен Достоевского распределение  между по крайней мере и по меньшей мере было именно таким: частота по крайней мере существенно превосходила частоту по меньшей мере. Однако это не так. Предварительный анализ корпуса текстов Гоголя (около трех мегабайт) показывает, что различие в частотности этих единиц не так велико, как у Достоевского: на 1 употребление по меньшей мере — 83 употребления по крайней мере. Весьма вероятно, что в сфере публицистики того времени различие в частоте употребления по меньшей мере и по крайней мере было еще меньшим и приближалось к современной норме. Здесь тоже можно видеть коррелят авторского видения мира, авторского стиля.

По полученным файлам произведений Э. Плющихина, В. Непомнящего и спорных произведений (для каждого текста в отдельности и потрем группам — «спорная группа», «группа произведений Плющихина», «группа произведений Непомнящего») были составлены словники с указанием абсолютной и относительной частоты употребления (общее количество словоупотреблений по произведениям и по группам см. в приложении к экспертизе). Для компьютерной обработки использовалась программа DIALEX и база данных ACCESS 7 в среде Windows.

Из сферы анализа были исключены  слова с предметным значением, частота  употребления которых определяется конкретной проблемной областью. Были проанализированы группы квазисинонимов для следующих слоев лексической  системы языка:

  • наречия,
  • частицы,
  • вводные слова и выражения,
  • фразеологические выражения (идиомы),
  • глаголы речи,
  • союзы и союзные слова.

Рассмотрим последовательно примеры  квазисинонимов из каждой группы лексем. Наречия степени. Первая проанализированная группа — наречия со значением  неполноты проявления какого-либо свойства, характеристики — едва и немного. Эти наречия во многих контекстах близки по значению. Однако стилистические предпочтения авторов проявляются  в тенденциях выбора этих слов. Относительная  частота едва и немного для  спорных произведений и произведений Плющихина практически идентична, однако она существенно отличается от относительной частоты употребления этих единиц у Непомнящего: едва = 0,007 % (спорные), 0,006% (Плющихин), 0,018% (Непомнящий); немного = 0,002% (спорные), 0,002% (Плющихин), 0,031 % (Непомнящий) (см. табл. 1).

Таблица 1

 

Спорные произведения

Произведения Плющихина

Произведения Непомнящего

Абсолют. частота

Относит. частота

Абсолют. частота

Относит. частота

Абсолют. частота

Относит. частота

Едва Немного

6+716)=13 2+1=3

0,007 % 0,002 %

12+3+12=27 1+2+2=5

0,006% 0,002 %

11+18=29

25+25=50

0,018% 0,031 %

Информация о работе Квантитативная лингвистика