Информационные технологии документационного обеспечения управленческой деятельности

Автор: Пользователь скрыл имя, 25 Января 2012 в 11:45, контрольная работа

Описание работы

Первоначальным направлением развития СУБД стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы языки запросов к БД.

Работа содержит 1 файл

Информационные технологии документационного обеспечения управленческой деятельности.docx

— 58.78 Кб (Скачать)

 Фасетная классификация не связана подобными ограничениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик — фасет — по семантическому принципу, отражающему специфику предметной области.

 Фасеты  выступают в роли элементов, из которых  можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу .

 Основное  достоинство фасетной классификации заключается в возможности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.

3. Дескрипторные информационно-поисковые языки

 В основе построения дескрипторных ИПЯ лежит  принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются :

  • словарь лексических единиц;
  • правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного 
    языка на ИПЯ;
  • правила построения ИПЯ.
 

Словари лексических  единиц делятся на две группы:

    *основные лексические словари, составляющие лексику ИПЯ;

  • морфологические словари, обеспечивающие морфологический 
    анализ и нормализацию слов.

 В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

 Дескриптор  — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание .

 Разработка  дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).

  Тезаурус  (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.

 Наиболее  важными парадигматическими отношениями  ИПТ являются:

* соподчинение;

  • род-вид;
  • часть—целое;
  • причина—следствие;
  • функциональное сходство.
 

  Обобщенная  структура ИПТ включает как минимум  три составляющих: словарную часть, семантическую карту, руководство по использованию.

 Словарная часть — алфавитный список дескрипторов с их словарными статьями.

 Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.

 Руководство по использованию ИПТ содержит правила  перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

 Отличием  информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

 Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности  индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе ИПТ ПОД представлен набором дескрипторов. Однако в процессе индексирования документов учитываются семантические отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию документа ПОД и повышает эффективность поиска документов.

 Форма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде:

реферат:

с: резюме;

     в: свертывание информации;

     н: реферат авторский:

      реферат графический;

      реферат информативный;

      реферат «телеграфного стиля»;

      реферат указательный;

    реферирование;

     а: аннотация

В качестве буквенных  обозначений здесь выступают  следующие:

    с — термины-синонимы;

    в — термины, подчиняющие заглавный термин;

    н — термины, подчиненные заглавному;

    а — термины, ассоциированные с заглавным термином.

 Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие тезаурусы строятся на основе базовых тезаурусов и дополняются в процессе индексирования документов новыми терминами. 

4. Системы индексирования

  Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ

Рассмотрим классификацию  систем индексирования.

    1. По степени  автоматизации процесса индексирования  выделяют системы:

    • ручного индексирования;

    • автоматического индексирования;

    • автоматизированного индексирования.

2. По степени контролируемости различают системы:

  • без словаря;
  • с жестким словарем;
  • со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

  • с последовательным просмотром текста (отбираются все полнозначные слова);
  • с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
  • со статистическими процедурами выбора слов (отбираются 
    только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

  • без лексикографического контроля;
  • с полным контролем;

  • с промежуточным контролем. 
Лексикографический контроль предусматривает :

  • устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
  • нормализацию слов на основе морфологических нормативных 
    словарей.

5.    По  характеру морфологического анализа  слов различают системы:

  • с использованием морфологических словарей;
  • с использованием основных лексических словарей;
  • с использованием морфологического анализа с усечением слов.

Возможны системы  индексирования без морфологического анализа.

 Процесс свободного индексирования состоит  в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

 Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком  индексировании слова берутся только из текста.

  Поначалу  индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

  Существуют  два подхода к автоматическому  индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса — прямой и инвертированный.

  Прямой  тип индекса строится по схеме  «документ—термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

  Инвертированный тип индекса строится по обратной схеме — «термин—документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

 

Второй  подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

5. Полнотекстовые информационно-поисковые системы

  Процессы  компьютеризации деятельности предприятий  привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.

  Информационно-поисковые  каталоги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий . В результате на рынке программных продуктов появились полнотекстовые ИС.

   Полнотекстовые ИС строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает:

  • хранилище документов;
  • глобальный словарь системы;
  • инвертированный индекс документов;

* интерфейс ввода  документов в систему;

* механизм индексирования;

*интерфейс запросов  пользователя

* механизм поиска  документов;

* механизм извлечения найденных документов.

     Хранилище документов может быть  организовано как единая локально сосредоточенная информационная структура в виде специального файла с текстами документов.

 Глобальный  словарь системы может быть статическим  и динамическим.

 Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище.

 Динамические  словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.

 Элементы  глобального словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие через интерфейс ввода-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых И С полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря.

Информация о работе Информационные технологии документационного обеспечения управленческой деятельности