Автор: Пользователь скрыл имя, 01 Мая 2012 в 19:52, реферат
Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям.
Документальная информационная система (ДИС) — единое хранилище документов с инструментарием поиска и выдачи необходимых пользователю документов.
Словари лексических единиц делятся на две группы:
*основные лексические словари, составляющие лексику ИПЯ;
* морфологические словари, обеспечивающие морфологический
анализ и нормализацию слов.
В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.
Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание .
Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).
Тезаурус (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.
Наиболее важными парадигматическими отношениями ИПТ являются:
* соподчинение;
* род-вид;
* часть—целое;
* причина—следствие;
* функциональное сходство.
Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию.
Словарная часть — алфавитный список дескрипторов с их словарными статьями.
Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.
Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.
Отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.
Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе ИПТПОД представлен набором дескрипторов. Однако в процессе индексирования документов учитываются семантические отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватныйсодержанию документа ПОД и повышает эффективность поиска документов.
Форма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде:
реферат:
с: резюме;
в: свертывание информации
н: реферат авторский:
реферат графический;
реферат информативный;
реферат «телеграфного стиля»;
реферат указательный;
реферирование;
а: аннотация
В качестве буквенных обозначений здесь выступают следующие:
с — термины-синонимы;
в — термины, подчиняющие заглавный термин;
н — термины, подчиненные заглавном
а — термины, ассоциированные с заглавным термином.
Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие тезаурусы строятся на основе базовых тезаурусов и дополняются в процессеиндексирования документов новыми терминами.
4. Системы индексирования
Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ
Рассмотрим классификацию систем индексирования.
1. По степени автоматизации процесса индексирования выделяют системы:
• ручного индексирования;
• автоматического индексирования;
• автоматизированного индексирования.
2. По степени контролируемости разли
• без словаря;
• с жестким словарем;
• со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
• с последовательным просмотром текста (отбираются все полнозначные слова);
• с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
• со статистическими процедурами выбора слов (отбираются
только информативные слова в соответствии с распределением частот их употребления).
4. По характеру лексикографического контроля различают системы:
• без лексикографического контроля;
• с полным контролем;
• с промежуточным контролем.
Лексикографический контроль предусматривает :
* устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
* нормализацию слов на основе морфологических нормативных
словарей.
5. По характеру морфологического анализа слов различают системы:
* с использованием морфологических словарей;
* с использованием основных лексических словарей;
* с использованием морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.
Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса — прямой и инвертированный.
Прямой тип индекса строится по схеме «документ—термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.
Инвертированный тип индекса строится по обратной схеме — «термин—документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).
5. Полнотекстовые информационн
Процессы компьютеризации деятельности предприятий привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.
Информационно-поисковые каталоги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий . В результате на рынке программных продуктов появились полнотекстовые ИС.
Полнотекстовые ИС строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает:
* хранилище документов;
* глобальный словарь системы;
* инвертированный индекс документов;
* интерфейс ввода документов в систему;
* механизм индексирования;
*интерфейс запросов пользователя
* механизм поиска документов;
* механизм извлечения найденных документов.
Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла с текстами документов.
Глобальный словарь системы может быть статическим и динамическим.
Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище.
Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.
Элементы глобального словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие через интерфейс ввода-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых И С полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря.
Существенное влияние на эффективность полнотекстовых ИС оказывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет выделять общую дляоднокоренных слов словоформу, а также выделять лексемы, т. е. слова, отличающиеся окончаниями, приставками и суффиксами.
В результате индексирования поисковый образ каждого нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы.
|
Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов.
При удалении документа из системы соответственно удаляется и поисковый образ документа.
Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм поиска основывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю.
Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы по законодательству.
Автоматизированная информационная система по законодательству (АИСЗ) — это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с ним . Этиинструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.
АИСЗ являются частью следующих типов информационных систем .
1. Справочно-информационные системы общего назначения, ориентированные на доступ пользователей к нормативно-правовым
актам. К этим системам относятся «Консультант Плюс», «Гарант», «Кодекс» и др.
2. Глобальные информационные службы (хост-системы), предоставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юридической информации, является система LEXIS (США).
3. Системы информационной поддержки деятельности .правотворческих органов. Спецификой таких систем является необходимость хранения и поиска многих версий и редакций нормативно-правовых документов, с учетом вносимых поправок и изменений.
4. Системы автоматизации делопроизводства судов, милиции и других правоохранительных органов.
Основными особенностями АИСЗ являются :
*необходимость предоставления адресного доступа к полным текстам;
* в информационных языках для поиска в БД по законодательству
необходим учет контекстных связей, регламентированных прилагательных (типа «обязательный», «произвольный» и др.);
* тексты нормативных актов должны подвергаться так называемой юридической обработке, при которой тексту приписываются не только классификационные индексы, ключевые слова или дескрипторы (как при обычном индексировании), но и комментарии специалистов, ссылки на предшествующие версии, связанные документы, решения судов и др.
В 1992 году образовалось НПП «Гарант-Сервис». В этом же году была создана общероссийская сеть«Консультант Плюс», которая охватила множество городов России. В настоящее время наиболее распространена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей.
На третьем месте находится достаточно популярный продукт — информационно-поисковая система «Кодекс», которая разработана малым государственным предприятием «Центр компьютерных разработок».
На российском рынке АИСЗ представлены также следующие продукты, созданные государственными предприятиями для обеспечения потребностей в правовой информации государственных ведомств: