Автор: Пользователь скрыл имя, 26 Февраля 2011 в 12:29, реферат
Документальные информационные системы (ДИС). Поисковых характер документальных информационных систем. Семантически-навигационные ДИС. Системы ДИС на основе индексирования. Классификация системе индексирования. Схеме ДИС на основе индексирования. Поисковый образ запроса и поисковый образ документа. Релевантность.
Документальные информационные системы (ДИС). Поисковых характер документальных информационных систем. Семантически-навигационные ДИС. Системы ДИС на основе индексирования. Классификация системе индексирования. Схеме ДИС на основе индексирования. Поисковый образ запроса и поисковый образ документа. Релевантность.
Информационно-поисковый
язык (ИПЯ). Понятие
ИПЯ. Основные
элементы ИПЯ. Требования
к ИПЯ.
Документальная информационная система (ДИС) – единое хранилище документов с инструментарием поиска и выдачи, необходимых пользователю документов.
Элементом данных в документальных ИС является документ. Обычно под документом понимается текстовый файл.
Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям.
Первоначальным
направлением в развитии СУБД стала
разработка и использование
Поисковый характер документальных информационных систем определил еще одно название – информационно-поисковые системы (ИПС).
В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы:
-
системы на основе
- семантически-навигационные
Семантически-навигационные системы ДИС.
Семантика – значение единиц языка.
В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.
В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство.
Процесс отображения документа
в поисковое пространство
Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности, посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.
На основе определенных критериев ДИС осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.
Соответствие
найденных документов
запросу пользователя
называется релевантностью.
Схема ДИС на основе индексирования.
Отражение
Система индексирования (СИ) – совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.
Классификация систем индексирования.
1. По степени автоматизации процесса индексирования выделяют системы:
- ручного пользования;
- автоматического индексирования;
-
автоматизированного
2. По степени контролируемости различают системы:
- без словаря;
- с жестким словарем;
- со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
- с последовательным просмотром текста (отбираются все полнозначные слова);
- с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
-
со статистическими
4.
По характеру
-
без лексикографического
- с полным контролем;
- с промежуточным контролем.
5. По характеру морфологического анализа слов:
-
с использованием
- с использованием основных лексических словарей;
-
с использованием
Информационно-поисковый язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса.
Основными элементами ИПЯ являются алфавит, лексика и грамматика.
Алфавит ИПЯ – система знаков, используемых для записи слов и выражений ИПЯ.
Лексика, или словарный состав, ИПЯ – совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.
Грамматика ИПЯ – совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис.
Требования к ИПЯ.
1.
располагать лексико-
2.
не содержать полисемии,
Омонимия – это совпадение слов по написанию или звучанию и несовпадение по смыслу.
Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий.
Синонимия – это совпадение слов по значению и несовпадение по смыслу.
3.
отображать только объективные
характеристики предметов и
4.
быть удобным для
Построение выражений ИПЯ требует решения, по крайней мере, двух проблем.
Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений.
Выбор слов определяется их смыслом, обусловленным парадигматическими отношениями между предметами и явлениями, которые они определяют.
Парадигматические отношения – это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными словами.
В
ИПЯ недопустима
Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов.
Синтагматические
отношения – отношения слов при
соединении их в словосочетания и фразы.
Типы информационно-поисковых языков (классификационные и дескрипторные). Дескрипторы. Тезаурус. Критерии оценки документальных систем. Полнота и точность информационного поиска. Информационный шум системы. Программные средства реализации документальных ИС. Полнотекстовые информационные системы.
По способу организации понятий различают следующие ИПЯ:
Предкоординироваемые (классификационные) ИПЯ.
Предкоординация
– это предварительное
Классификация – это
Словарный запас задается в виде фиксированного списка слов. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка.
К классификационным языкам относят:
1) информационно-поисковый язык иерархического типа;
2) ИПЯ фасетного типа;
3)
алфавитно-предметную
Информационно
поисковые каталоги, основанные на
классификации ведений
При
систематизированной
Фасетная классификация – не связана подобными ограничениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик – фасет – по семантическому принципу, отражающему специфику предметной области.
Фасеты выступают в роли элементов, из которых можно сконструировать самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу.
Основное достоинство фасетной классификации заключается в возможности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик, т.е. более точно и полно проиндексировать содержание документов.
Дескрипторные (посткоординируемые) ИПЯ.
Дескрипторные языки основаны на методе координатного индексирования, который полагает, что основное смысловое содержание документа может быть выражено списком ключевых слов.
К ключевым словам относятся так называемые полнозначные слова – существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.
Основными элементами ДИПЯ являются:
1) словарь лексических единиц;
2) правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ;
3) правила построения ИПЯ.
В качестве логических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.
Дескриптор – понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов (имя класса синонимов). В качестве дескрипторов могут быть использованы код, слово или словосочетание.
Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.