Cтруктура Национального Корпуса Русского Языка

Автор: Пользователь скрыл имя, 21 Декабря 2011 в 13:54, реферат

Описание работы

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Работа содержит 1 файл

Cтруктура Национального Корпуса Русского Языка3.doc

— 63.00 Кб (Скачать)

Cтруктура Национального Корпуса Русского Языка

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. 

Национальный  корпус создается лингвистами  для  научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса.

Национальный корпус имеет две важные особенности. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода.

Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке (таких, как, по-видимому, наиболее известная «библиотека Максима Мошкова. Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса.

Зачем нужен национальный корпус?

Национальный  корпус предназначен для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как развивается Национальный корпус?

Национальный  корпус русского языка охватывает прежде всего период от середины XVIII до начала XXI века: этот период представляет как  язык предшествующих эпох, так и  современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном.

Национальный  корпус русского языка в настоящее  время включает следующие подкорпуса:

основной корпус, в который входят прозаические (включая  драматургию) письменные тексты XVIII — начала XXI века;

синтаксический (глубоко аннотированный) корпус, в  котором для каждого предложения  построена полная морфологическая  и синтаксическая структура (дерево зависимостей);

газетный корпус (корпус современных СМИ), в котором  представлены статьи из средств массовой информации 1990-2000-х годов;

параллельные  корпуса, в которых можно найти  все переводы для определенного  слова или словосочетания на русский  язык или с русского языка. В настоящее  время для поиска доступны англо-русский, русско-английский, немецко-русский, украинско-русский и русско-украинский параллельные корпуса;

корпус диалектных текстов, включающий запись диалектной речи различных регионов России с  сохранением их грамматической специфики; предусмотрен специальный поиск  с учётом диалектной морфологии;

корпус поэтических  текстов, в котором возможен поиск  не только по лексическим и грамматическим, но и по специфическим для стиха  признакам (поиск определённого  сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована  на школьную программу русского языка;

корпус устной речи, включающий расшифровки магнитофонных  записей публичной и частной устной речи, а также транскрипты кинофильмов;

акцентологический корпус (корпус истории русского ударения) — тексты, несущие информацию об истории русского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе  кинофильмов). Эти тексты доступны для поиска по месту ударения и просодической структуре слова;

мультимедийный  корпус, куда входят снабжённые видео- и аудиорядом фрагменты кинофильмов 1930—2000-х годов. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.)

Основной  корпус текстов

Основной корпус — тексты, представляющие русский  литературный язык, — можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим массивам ведётся одновременно, задать хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса.

Современные письменные тексты

Представительный  корпус современных текстов с  морфологической разметкой является основным и самым объёмным из подкорпусов. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:

  • современная художественная проза разных жанров и направлений
  • современная драматургия
  • мемуарно-биографическая литература
  • журнальная публицистика и литературная критика
  • газетная публицистика и новости
  • научные, научно-популярные и учебные тексты
  • религиозные и религиозно-философские тексты
  • производственно-технические тексты
  • официально-деловые и юридические тексты
  • бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)

Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.

Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей).

Статистика  Корпуса

Национальный  корпус русского языка в январе 2008 г. содержал 52 392 текста общим объемом 149 357 020 словоупотреблений. Распределение текстов может происходить на основе разных признаков, один из них:

  Распределение текстов  основного корпуса  по видам и другим  метапризнакам

Вид текста Число текстов  Число словоупотреблений % словоупотреблений 
Художественные  письменные тексты 3 893 58 547 176 39,7
Нехудожественные  письменные тексты 37 249 83 218 964 56,4
Устная  речь 1 245 5 810 482 3,9

Морфология

Структура морфологической  информации

Морфологическая информация, приписываемая произвольному  слову в тексте, состоит из четырех «полей», или групп помет:

  1. Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
  2. Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
  3. Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
  4. Информация о нестандартности грамматической формы, орфографических искажениях и т. п. 

Морфологический разбор (или множество морфологических  разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается  в отдельном окне при щелчке на словоформе курсором мыши.

В основу метаязыка грамматических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе латинского алфавита. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «грамматические признаки»).

Некоторые, используемые в корпусе  грамматические пометы:

Части речи

S — существительное (яблоня, лошадь, корпус, вечность
A — прилагательное (коричневый, таинственный, морской

Число:

sg — единственное число (яблоко, гордость
pl — множественное число (яблоки, ножницы, детишки)

Падеж:

nom — именительный падеж (голова, сын, степь, сани, который
gen — родительный падеж (головы, сына, степи, саней, которого
dat — дательный падеж (голове, сыну, степи, саням, которому

Семантика

О лексико-семантической  информации в Корпусе

В настоящее  время в Корпусе реализована  система поиска по лексико-семантическим  признакам, основанная на частичной  семантической разметке текстов.

При такой разметке большинству слов в тексте приписывается один или несколько семантических и словообразовательных признаков, например, 'лицо', 'вещество', 'пространство', 'скорость', 'движение', 'обладание', 'свойство человека', 'диминутив', 'отглагольное имя' и т.п. Используется фасетная классификация, при которой одно слово может попадать в несколько классов. На первом этапе поиск осуществляется по части имеющихся в словаре признаков.

Разметка текстов  осуществляется автоматически с  помощью программы Semmarkup (автор А. Е. Поляков) в соответствии с Семантическим словарем Корпуса. Поскольку ручная обработка семантически размеченных текстов очень трудоемка, семантическая омонимия в Корпусе не снимается: многозначным словам приписывается несколько альтернативных наборов семантических признаков.

При работе над  семантической разметкой использовались сведения о значении слов и структуре  семантических классов из следующих  источников:

    Словарь русского языка под ред. С. И. Ожегова  
    Словарь русского языка под ред. С. И. Ожегова и Н. Ю. Шведовой  
    Словарь русского языка в 4-х тт. под ред. А. П. Евгеньевой (МАС)  
    Словарь русского языка в 17-ти тт. (БАС)  
    Толковый словарь русского языка Д. Н. Ушакова  
    Русский семантический словарь под ред. Н. Ю. Шведовой, тт. 1-3  
    Толковый словарь русских глаголов под ред. Л. Г. Бабенко  
    Системный семантический словарь русского языка Л. М. Васильева  
    Новый объяснительный словарь синонимов русского языка под общим рук. акад. Ю. Д. Апресяна (НОСС)

Структура лексико-семантической  информации

Лексико-семантическая информация, приписываемая произвольному слову в тексте, состоит из трех групп помет:

  1. разряд (например, имя собственное, возвратное местоимение);
  2. собственно лексико-семантические характеристики (например, тематический класс лексемы, признаки каузативности, оценки);
  3. деривационные (словообразовательные) характеристики (например, «диминутив», «отадъективное наречие»).

Лексико-семантическая  информация имеет различную структуру  для разных частей речи. Кроме того, каждый из разрядов существительных - имена предметные, непредметные и собственные - имеет свою структуру помет.

В основу метаязыка лексико-семантических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе англоязычной нотации. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «семантические признаки»). Ниже приводится инвентарь всех доступных в настоящее время для поиска в Корпусе семантических помет. Для пояснения в скобках даются примеры.

Информация о работе Cтруктура Национального Корпуса Русского Языка