Содержание Введение………………………………………………………………………….3
1. Информационная поисковая система……………………………….
……….4
2. Механизмы поиска документов а полно
текстовых ИПС…………………..5
3. Список использованной литературы…………………………………………9
Введение
ИПС (информационно-поисковая
система) - это система, обеспечивающая
поиск и отбор необходимых
данных в специальной базе с описаниями
источников информации (индексе) на основе
информационно-поискового языка и соответствующих
правил поиска.
Главной задачей любой ИПС является поиск
информации релевантной информационным
потребностям пользователя. Очень важно
в результате проведенного поиска ничего
не потерять, то есть найти все документы,
относящиеся к запросу, и не найти ничего
лишнего.
Информационная поисковая система
ИПС (информационно-поисковая
система) - это система, обеспечивающая
поиск и отбор необходимых
данных в специальной базе с описаниями
источников информации (индексе) на основе
информационно-поискового языка и соответствующих
правил поиска.
Главной задачей любой ИПС является поиск
информации релевантной информационным
потребностям пользователя. Очень важно
в результате проведенного поиска ничего
не потерять, то есть найти все документы,
относящиеся к запросу, и не найти ничего
лишнего.
Поэтому вводится качественная характеристика
процедуры поиска - релевантность.
Релевантность - это соответствие результатов
поиска сформулированному запросу. В основном,
рассматривать ИПС для всемирной паутины
(WWW). Основными показателями ИПС для WWW
являются пространственный масштаб и
специализация. По пространственному
масштабу ИПС можно разделить на локальные,
глобальные, региональные и специализированные.
Локальные поисковые системы могут быть
разработаны для быстрого поиска страниц
в масштабе отдельного сервера. Региональные
ИПС описывают информационные ресурсы
определенного региона, например, русскоязычные
страницы в Интернете. Глобальные поисковые
системы в отличие от локальных стремятся
объять необъятное - по возможности наиболее
полно описать ресурсы всего информационного
пространства сети Интернет.
В общем случае, можно выделить следующие
поисковые инструменты для WWW: каталоги,
поисковые системы, мета поисковые системы.
Каталог - поисковая система с классифицированным
по темам списком аннотаций со ссылками
на web-ресурсы. Классификация, как правило,
проводится людьми.
Поиск в каталоге очень удобен и проводится
посредством последовательного уточнения
тем. Тем не менее, каталоги поддерживают
возможность быстрого поиска определенной
категории или страницы по ключевым словам
с помощью локальной поисковой машины.
База данных ссылок (индекс) каталога обычно
имеет ограниченный объем, заполняется
вручную персоналом каталога. Некоторые
каталоги используют автоматическое обновление
индекса. Результат поиска в каталоге
представляется в виде списка, состоящего
из краткого описания (аннотации) документов
с гипертекстовой ссылкой на первоисточник.
Поисковая машина - поисковая система
с формируемой роботом базой данных, содержащей
информацию об информационных ресурсах.
Механизмы поиска
документов в полнотекстовых ИПС
В полнотекстовых ИПС поиск
документов осуществляется по индексу
системы через дескрипторный язык запросов
с логическими операциями над словоформами,
а также через другие механизмы использования
поисковых образов документов и запросов.
Принцип и механизм поиска документов
по индексу системы очевидны. Пользователь
должен указать путем перечисления и ввода
в систему тех словоформ, набор которых
выражает его информационные потребности.
К примеру, если пользователю необходимо
найти документы, содержание которых касается
экспорта редкоземельных элементов, то
запрос к системе может выглядеть следующим
образом «экспорт редкоземельные элементы».
В ответ система по индексу определит
номера (группу) документов, где присутствует
слово «экспорт», группу документов, где
присутствует слово «редкоземельные»,
и группу документов, где присутствует
слово «элементы». Ясно, что полнота и
точность такого поиска будут оставлять
желать много лучшего, так как в первой
группе документов могут присутствовать
в том числе и документы, в которых речь
идет об экспорте чего-то другого, например
леса, или об экспорте вообще. Во второй
группе документов могут присутствовать
документы, в которых речь идет, в том числе,
о добыче или производстве редкоземельных
элементов, но не об их экспорте. В третьей
группе документов могут присутствовать
и документы, в которых речь идет, скажем,
о преступных элементах, что, конечно же,
совершенно может не соответствовать
благим информационным потребностям пользователя.
Слабая эффективность подобного способа
выражения информационных потребностей
преодолевается некоторыми реляционными
дополнениями такого чисто дескрипторного
языка запросов на основе пост координации,
только не понятий, а словоформ. В язык
запросов вводятся логические операции
отношений дескрипторов запроса — операция
логического «И», операция логического
«ИЛИ», операция логического отрицания
«НЕ». В полнотекстовых
ИПС поиск документов осуществляется
по индексу системы через дескрипторный
язык запросов с логическими операциями
над словоформами, а также через другие
механизмы использования поисковых образов
документов и запросов.
Отличительной особенностью поиска документов
по индексу является практическая независимость
времени (скорости) поиски от объема базы
документов, особенно если используется
статический словарь. Для любого запроса,
независимо от текущего объема базы документов,
выполняется приблизительно одинаковое
количество операций, связанных с просмотром
строк индексного массива и определением
совокупности номеров релевантных документов.
Следующей стадией выполнения запроса
является собственно извлечение из базы
(файла документов) самих документов. Для
этого обычно в полнотекстовой ИПС создается
специальный массив адресов начала расположения
документов.
В системах с динамически поддерживаемыми
словарями время поиска при увеличении
объема базы документов сначала также
увеличивается (т. к. пропорционально увеличивается
объем словаря и, соответственно, объем
индекса), а затем так же, как в системах
со статическими словарями, перестает
зависеть от объема базы документов. Это
объясняется тем, что с некоторой границы
объема базы документов словарь системы
уже набирает практически полный набор
словоформ, присущих конкретной предметной
области, и вероятность появления в новом
документе слова, которого еще не было
в словаре системы, резко падает.
Как уже отмечалось, повышению эффективности
поиска способствует морфологический
разбор документов и запросов. Помимо
существенного уменьшения объема словаря
и, соответственно, индекса системы, морфологический
разбор повышает и эффективность поиска,
так как не реагирует на несущественные
с точки зрения смыслового содержания
грамматические различия искомого текста
документов и запросов. Если вернуться
опять-таки к примеру с запросом «экспорт
редкоземельные элементы», то система
с морфологическим разбором отберет не
только те документы, в которых встречается
буквальное сочетание словоформ «экспорт»,
«редкоземельные», «элементы», но и такие
фразы, как «К вопросу об экспорте редкоземельных
элементов», «Проблемы экспорта редкоземельные
элементов» и т.п.
Морфологический разбор в принципе дает
возможность пользователю формировать
запросы на естественном языке. Система при
обработке запроса удаляет из него все
«стоп-слова», остальные словоформы нормализует
и, оставляя пользователя в полной иллюзии
о том, что она действительно его «понимает»,
выполняет таким образом выхолощенный
запрос. Некоторое время тому назад наблюдалось
сильное увлечение таким подходом, от
которого, к счастью, вскоре разработчики
полнотекстовых ИПС отошли. Использование
якобы естественного языка запросов на
самом деле не позволяет применять логические
операторы и другие развитые возможности,
связанные с координатным анализом местонахождения
и контекстного окружения искомых слов,
терминов, сочетаний и т. д.
Еще одной важной характеристикой поиска
документов по индексу, в том числе с учетом
логических операций пост координации
и морфологического разбора, является
то, что такой поиск основывается на упрощенном
детерминированном подходе. Иначе говоря,
критерием поиска является вхождение
или не вхождение того или иного дескриптора-словоформы
запроса в поисковый образ документа без
учета общей «похожести» ПОД и ПОЗ. Масса
остальных дескрипторов поискового образа
документа не рассматривается. Поэтому
в развитых полнотекстовых ИПС реализуются
более тонкие и сложные алгоритмы поиска,
основанные на сравнении ПОД и ПОЗ в целом
по тем или иным критериям похожести, близости.
Такой подход позволяет предоставлять
пользователям более эффективные возможности
выражения своих информационных потребностей
без их явной формализации и структуризации
по словоформам. В частности, пользователь
может поставить ИПС задачу поиска документов,
«похожих» по содержанию на какой-либо
другой документ или фрагмент документа.
В этом случае не только ПОД, но и ПОЗ представляют
собой полномасштабные двоичные векторы,
часть дескрипторов которых будет совпадать,
а часть не совпадать, и возникнет необходимость
в использовании более тонких критериев
определения близости документов и запроса.
Кроме того, становится возможным определение
количественных мер (показателей) близости,
т.е. релевантности документов и запросов.
Список использованной литературы
1.
Васкевич Д. Стратегии клиент/сервер. -
К:"Диалектика", 2003
2. Дейт К. Введение в системы баз данных.
- К:"Диалектика", 199
3. Н.А. Гайдамакин «Автоматизированные
информационные системы, базы и банки
данных», М.: «Гелиос», 2002.