Квантитативная лингвистика

Автор: Пользователь скрыл имя, 04 Июня 2013 в 20:54, реферат

Описание работы

Квантитати́вная лингви́стика (англ. quantitative linguistics) — это раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) занимается исследованием процесса изучения языка, его изменения и сферы применения, а также структуры естественных языков.

Содержание

Введение

Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения …………….…. 4
Некоторые языковые лингвистические
законы ………………………………………………….….. 5
1.2. Стилистика ………………………………………….....7
2. Основные области приложения структурно-вероятностной модели языка ………………………………... 8
2.1. Авторизация атрибуция текста ……………........... 10
2.2. Авторизация текста: пример экспертизы ………. 11
Заключение
Список использованной литературы

Работа содержит 1 файл

Квантитативная лингвистика.docx

— 57.88 Кб (Скачать)

Квантитативная лингвистика

 

Содержание:

 

Введение

 

  1. Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения …………….…. 4
    1. Некоторые языковые лингвистические

законы ………………………………………………….….. 5

1.2. Стилистика ………………………………………….....7

2. Основные области приложения  структурно-вероятностной модели  языка ………………………………... 8

2.1. Авторизация атрибуция текста  ……………........... 10

2.2. Авторизация текста: пример экспертизы  ………. 11

Заключение

Список использованной литературы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

Квантитати́вная лингви́стика (англ. quantitative linguistics) — это раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) занимается исследованием процесса изучения языка, его изменения и сферы применения, а также структуры естественных языков. КЛ исследует язык при помощи статистических методов; её конечная цель — сформулировать законы, по которым функционирует язык и, в конечном счете, построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков. Специально для этой цели была создана синергетическая лингвистика (Synergetic linguistics). КЛ эмпирически основывается на результатах языковой статистики, которая, в свою очередь, может интерпретироваться как статистика языков или статистика лингвистического объекта. Эта область знаний не обязательно связана с фундаментальными научными целями. Корпусная лингвистика и компьютерная лингвистика также вносят свой вклад в КЛ, поставляя важные эмпирические данные.

Самые ранние концепции КЛ относятся к древнегреческой  и древнеиндийской культурам. Один из исторических источников включает приложения комбинаторики к лингвистическим реалиям, другой основывается на элементарных статистических исследованиях, которые можно найти под заголовками колометрия и стихометрия.

В КЛ под  законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных  с другими законами в этой области  и в достаточном объёме и успешно  проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть несмотря на многочисленные попытки. Köhler пишет о законах КЛ: «Более того, можно показать, что эти свойства лингвистических элементов и отношений между ними подчиняются универсальным законам, которые могут быть сформулированы строго математически также как и законы естественных наук. Нужно иметь в виду в данном контексте, что эти законы стохастической природы; они не соблюдаются в каждом отдельном случае (в этом не было бы необходимости и возможности); они скорее определяют вероятности событий или количественные отношения изучаемых явлений.

 

 

 

 

 

 

 

 

    1. Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения

Название «квантитативная лингвистика» достаточно условно, хотя и довольно широко используется в современной  научной литературе. Оно характеризует  междисциплинарное направление  в прикладных исследованиях, в котором  в качестве основного инструмента  изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика  противопоставляется комбинаторной  лингвистике. В последней доминирующую роль занимает «неколичественный» математический аппарат теория множеств, математическая логика, теория алгоритмов и т.д.

Применение количественных методов  при описании функционирования языка  мало чем отличается от использования  аналогичного инструментария в естественных и гуманитарных науках. Привлечение  методов измерения и подсчета языковых реализаций позволяет, однако, существенно модифицировать представление  о языковой системе и возможностях ее функционирования. В этом отношении  квантитативная лингвистика оказывается  важнейшим фактором, влияющим на лингвистическую  теорию. Например, в сфере грамматики теоретическая лингвистика, как  правило, ограничивается констатацией существования в русском языке  системы падежей. Со структурной  точки зрения этого, быть может, и  достаточно. Между тем за рамками  обсуждения остается весьма существенная информация о том, как часто используются различные падежи, какова динамка  использования различных падежей  с течением времени. Исследование такого рода позволило бы выявить тенденции  развития падежной системы и на основе этого даже сформулировать гипотезы о будущем состоянии грамматической системы русского языка.

Другой пример. С системной точки  зрения в русском, английском и латинском  языках имеется форма именительного  падежа единственного числа личных местоимений. Однако в английском языке  при глаголе эта форма местоимения  практически всегда необходима, в  русском — местоимение в этих случаях обычно представлено, а в  латыни — как правило, отсутствует. Отсутствие достоверных количественных данных об этих языковых явлениях делает структурное описание явно недостаточным. Разумеется, имеются и смешанные  случаи.

Близкие проблемы возникают и в  сфере лексики. Обычные толковые словари не помещают в составе  словарной статьи информации о частоте  использования той или иной лексемы. Это связано с очень большим  объемом работы, который надо проделать, чтобы для каждого слова указать  хоть какие-то рамки частотности. Для  пользователя словаря такая информация может оказаться очень важной, часто решающей для принятия решения  об использовании слова. Ср., например, высокочастотные в публицистике идиомы с головы до ног/с ног до головы (48 вхождений на 21 млн словоупотреблений), целиком и полностью (49 вхождений на 21 млн), на все сто (42 вхождения на 21 млн), ровным счетом, ни больше ни меньше (71 вхождение на 21 млн), ни много, ни мало (133 вхождения на 21 млн) и весьма редкие для газетно-журнального стиля выражения море разливанное (9 вхождений на 21 млн), (и) стар и млад (8 вхождений на 21 млн), разные разности (1 вхождение на 21 млн)).

С теоретической точки зрения использование  статистических методов в языкознании  позволяет дополнить структурную  модель языка вероятностным компонентом, то есть создать структурно-вероятностную  модель, обладающую значительным объяснительным потенциалом. Эту сторону использования  количественных методов следует  считать приложением статистики в языкознании. К моделям такого рода относится, например, «модель жизненного цикла слова», предложенная А. А. Поликарповым. Проведенный им квантитативный анализ показал, что в достаточно значительной временной перспективе имеется  явная тенденция к увеличению степени абстрактности значений у многозначного слова — чем  позже возникает значение, тем  оно более абстрактно. Разработанная  количественная модель позволяет делать интересные предположение об относительном  «возрасте» различных частей речи, тенденций развития лексической  системы языка и т.д.

Из приведенного примера видно, что задача построения структурно вероятностной  модели функционирования языка относится  к теоретическим проблемам лингвистики  и входит в компетенцию теории языка. В прикладной же области квантитативная лингвистика представлена прежде всего использованием фрагментов этой модели.

 

    1. Некоторые лингвистические законы

Существует  целый ряд языковых законов, среди  которых:

  • Закон диверсификации: Если лингвистические категории (такие, например, как части речи или грамматические окончания) появляются в различных формах, то можно сказать, что частоты их появления в текстах контролируются определенными законами.
  • Распределение длин (или, в более общем виде, многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы. На данный момент были изучены следующие единицы:
    • Закон распределения длин морфов;
    • Закон распределения длин ритмических единиц;
    • Закон распределения длин предложений;
    • Закон распределения длин слогов;
    • Закон распределения длин слов;

Другие  языковые единицы, которые также  подчиняются этому закону, — это, например, буквы (символы) различной сложности, длины так называемых hrebs и речевых актов. Это же справедливо и для распределений звуков (фонов) различной длительности (долготы).

  • Закон Мартина: Этот закон касается лексических цепочек, которые образуются при поиске дефиниций (определений) слов в словаре, затем дефиниций только что найденных дефиниций и т. д. В конце концов все эти дефиниции образуют иерархию всё более и более общих значений, при этом дефиниций становится тем меньше, чем более общее значение получается. Среди уровней данной иерархии существует целый ряд подчиняющихся закону отношений.
  • Закон Менцерата (также, в особенности в лингвистике, известный как закон Менцерата-Альтмана): Данный закон гласит, что размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), или: чем длиннее слово (в слогах или морфах), тем короче слоги или слова в звуках.
  • Законы частотно-рангового распределения: Практически любая языковая единица подчиняется этим закономерностям. Приведем лишь несколько примеров:
    • Слова в тексте организованы в соответствии с частотой их появления в тексте, и каждому из них присвоен номер ранга и соответствующая частота. Со времен Джорджа Кингсли Ципфа (широкоизвестный закон Ципфа), предлагалось большое количество математических моделей, описывающих отношения между рангом и частотой.
    • Можно наблюдать похожее распределение между рангом и частотой звуков, фонем и букв.
    • Словесные ассоциации: Ранг и частота ассоциаций реагируют на (словесный) стимул.
  • Закон изменения языка: Процессы роста в языке (как, например, рост словаря), распространение иностранных и заимствованных слов, изменения в флективной системе и т. д. подчиняются закону, известному в КЛ как закон Пиотровского, и соответствуют моделям роста в других научных дисциплинах. Закон Пиотровского — это частный случай так называемой логистической модели (ср. с логистическим уравнением). Было показано, что он затрагивает и процессы усвоение языка (ср. закон усвоения языка).
  • Закон текстового блока: Лингвистические единицы (напр., слова, буквы, синтаксические функции и конструкции) демонстрируют определенное распределение частоты в одинаково больших блоках текстов.

Закон Ципфа: Частота слова обратно пропорциональна их рангу в списках частотности.

 

    1. Стилистика

 

Изучение поэтического и непоэтического стилей может основываться на статистических методах; более того, возможно проводить  соответствующие исследования на основе особых форм (параметров), которые языковые законы принимают в текстах различных  стилей. В таких случаях КЛ проводит исследование в стилистике: одна из итоговых целей — доказать настолько объективно, насколько это возможно, по крайней мере в одной области действий существование стилистического феномена, ссылаясь на действие языкового закона. Одно из главных предположений КЛ состоит в том, что некоторые законы (например, закон распределения длин слов) требуют различных моделей, по крайне мере различных значений параметров закона (распределений или функций), в зависимости от типа текста, к которому принадлежит этот текст. Если изучаются поэтические тексты, то методы КЛ образуют поддисциплину, которая называется «Квантитативное изучение литературы»

    1. Основные области приложения структурно-вероятностной модели языка

Лингвистический мониторинг функционирования языка. Задача лингвистического мониторинга  заключается в выявлении общих  особенностей функционирования языковой системы в конкретном типе дискурса (научном, политическом дискурсе, текстах  средств массовой информации и т.д.). В качестве предмета лингвистического мониторинга могут выступать такие феномены естественного языка, как типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые (креативные, творческие — не конвенциональные) метафоры, тематическое распределение лексики (например, лексика временных и пространственных отношений, лексика выражения чувств и эмоций, спортивная лексика и т.д.), особенности использования в текстах тех или иных грамматических форм, синтаксических конструкций. Технология лингвистического мониторинга основывается на двух важнейших предпосылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых — на достаточно большом объеме привлекаемого материала, на репрезентативности выборки данных. В силу этого лингвистический мониторинг невозможен без соответствующего компьютерного обеспечения. Использование компьютерной технологии позволяет давать оценку исследуемому феномену, выявляя его распределение по времени, по источникам, авторам и т.д.

Информация о статистических закономерностях  функционирования языковой системы  лежит в основе некоторых методик  анализа данных, разрабатываемых  в политической лингвистике. К ним  относится, в частности, методика контентанализа, используемая для выявления структуры и состояния общественного сознания. При помощи контентанализа появляется возможность по частоте употребления лексем реконструировать, например, ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики политических дискуссий и т.д..

Информация о работе Квантитативная лингвистика