Автор: Пользователь скрыл имя, 16 Апреля 2012 в 09:54, контрольная работа
Поисковые системы Интернета, пожалуй, один из способов двигаться вперед по направлению развития и совершенствования. Развиваясь, сами Поисковые системы развивают все остальное вокруг себя выгодно принуждая совершенствовать качество самого Интернета, а так же технологий связанных с этим.
1. Введение……………………………………………………………………………………………..3
2. Поисковая система………………………………………………………………………………3
3. Исследование модели поведения пользователей при работе с поисковыми системами………………………………………………………………………4
4. Обзор алгоритмов работы поисковых систем…………………………………..16
5. Алгоритмы поиска………………………………………………………………………………19
6. Заключение…………………………………………………………………………………………23
7. Список источников……………………………………………………………………………..25
Однако гораздо
важнее не сама частота слова, а то,
насколько часто в текущем
документе это слово
Кроме статистики
внутри документа в системе
Кроме статистических характеристик можно
выделить и некоторые "семантические",
которые следуют из общих представлений
о документах. Каждый документ представляет
собой неоднородный текст. При любой структуре
документа его название имеет наибольшую
информационную ценность. Поэтому системе
введен поправочный коэффициент для тех
слов, которые встретились в заголовке
документа.
Общий вес документа находится как сумма весов всех встретившихся слов в данном документе.
Одними из
важных атрибутов документа являются
его номер и дата. Поэтому из
поискового запроса выделяются последовательности,
похожие на номера и даты документов,
и проводится поиск этих последовательностей
в соответствующих полях
При достаточно
длинных запросах даже такой алгоритм
дает неплохие результаты. Однако если
запрос состоит из 2-3 слов, и если
распределения этих слов сильно отличаются
(одно слово встречается часто, а
второе - редкое), то редкое слово начинает
сильно "перевешивать". В ответе
на запрос начинают встречаться документы,
содержащие только одно "тяжелое"
слово. Поэтому в системе "Кодекс"
реализован следующий алгоритм. На
первом этапе выбираются документы,
содержащие все слова. Если после
сортировки этой группы по весу выборка
получилась меньше 10 документов, то из
запроса "выбрасывается" самое "легкое"
(чаще всего встречающеюся в
Имеется также
алгоритм уточнения результатов
запроса, учитывающий дополнительную
информацию о связях между документами.
Действительно, если много документов
по конкретной теме ссылается на один
документ, то он, скорее всего, содержит
важную информацию по этому вопросу.
Поэтому после "взвешивания" документов
по описанному выше алгоритму система
"Кодекс" добавляет часть его
веса всем документам, на которые документ
ссылается.
В пятой версии добавлена обработка атрибутов
документов. Система выделяет два типа
атрибутов - номер и дата документа. Выделение
атрибутов происходит на этапе анализа
строки запросов. Если выделяется атрибут
даты, то производится поиск документов,
у которых один из атрибутов даты (дата
принятия, дата редакции и т. д.) совпадает
с заданной датой, такие документы получают
дополнительный вес. В случае если поисковая
фраза содержит числа, то помимо обработки
слов фразы будет вестись поиск документов
с заданным номером, которые получат дополнительный
вес.5
Заключение.
Имеется ли альтернатива для Поисковых систем Интернета? На этот вопрос однозначно ответить, пожалуй, не получится, так же как не получится ответить на вопрос, имеется ли альтернатива автотранспорту. Возможность и есть и в случае приложения, каких либо умственных усилий в поисках альтернативного направления Поисковым системам можно создать нечто новое, однако стоит ли изобретать колесо повторно…
Конечно, в
том виде, в котором существуют
Поисковые системы сейчас в Интернете
долго продержаться не смогут, так
как подгоняемый
Список
литературы.
Информация о работе Поисковые системы. Традиционные и новейшие алгоритмы поиска информации