Поисковые системы. Традиционные и новейшие алгоритмы поиска информации

Автор: Пользователь скрыл имя, 16 Апреля 2012 в 09:54, контрольная работа

Описание работы

Поисковые системы Интернета, пожалуй, один из способов двигаться вперед по направлению развития и совершенствования. Развиваясь, сами Поисковые системы развивают все остальное вокруг себя выгодно принуждая совершенствовать качество самого Интернета, а так же технологий связанных с этим.

Содержание

1. Введение……………………………………………………………………………………………..3
2. Поисковая система………………………………………………………………………………3
3. Исследование модели поведения пользователей при работе с поисковыми системами………………………………………………………………………4
4. Обзор алгоритмов работы поисковых систем…………………………………..16
5. Алгоритмы поиска………………………………………………………………………………19
6. Заключение…………………………………………………………………………………………23
7. Список источников……………………………………………………………………………..25

Работа содержит 1 файл

информационные системы.docx

— 295.87 Кб (Скачать)

Однако гораздо  важнее не сама частота слова, а то, насколько часто в текущем  документе это слово встречается  относительно других слов. Поэтому  вычисляется отношение частоты  слова из запроса и частоты  самого используемого термина в  документе. Таким образом, если в  запросе указано слово "налог" и в документе чаще всего встречается  слово "налог", то это отношение  будет максимальным.

Кроме статистики внутри документа в системе используется статистика термина в базе данных в целом. Например, в при рассмотрении словосочетания "земельный налог" для человека, очевидно, что слово "земельный" является определяющим. Эту "важность" слова также можно определить статистически. Для этого исследуется статистика появления данного слова в документах. Если данное слово встречается во многих текстах, то с высокой вероятностью можно предположить, что оно не несет полезной информации по критерию отличия одного документа от другого. В нашем примере слово "налог" будет встречаться гораздо чаще, чем слово "земельный". Значит "земельный" - более "характерное" слово, то есть "сильнее" характеризует отличие документов друг от друга. Для того чтобы это учесть, в системе, для каждого слова введен еще один коэффициент, уменьшающийся с ростом числа документов в которых присутствует данное слово. 
Кроме статистических характеристик можно выделить и некоторые "семантические", которые следуют из общих представлений о документах. Каждый документ представляет собой неоднородный текст. При любой структуре документа его название имеет наибольшую информационную ценность. Поэтому системе введен поправочный коэффициент для тех слов, которые встретились в заголовке документа.

Общий вес  документа находится как сумма  весов всех встретившихся слов в  данном документе.

Одними из важных атрибутов документа являются его номер и дата. Поэтому из поискового запроса выделяются последовательности, похожие на номера и даты документов, и проводится поиск этих последовательностей  в соответствующих полях документов. Если документы будут найдены, то они получат прибавку к весу.

При достаточно длинных запросах даже такой алгоритм дает неплохие результаты. Однако если запрос состоит из 2-3 слов, и если распределения этих слов сильно отличаются (одно слово встречается часто, а  второе - редкое), то редкое слово начинает сильно "перевешивать". В ответе на запрос начинают встречаться документы, содержащие только одно "тяжелое" слово. Поэтому в системе "Кодекс" реализован следующий алгоритм. На первом этапе выбираются документы, содержащие все слова. Если после  сортировки этой группы по весу выборка  получилась меньше 10 документов, то из запроса "выбрасывается" самое "легкое" (чаще всего встречающеюся в документах) слово и операция повторяется. Поиск  прекращается при двух условиях. Во-первых, если при очередном поиске результирующая выборка превысит 10 документов. Во-вторых, если отсутствуют слова, которые  можно убрать из запроса. Такой алгоритм поиска использует только тексты документов. Он дает достаточно хорошие результаты, относительно быстро работает и не требует большого объема дополнительной индексной информации.

Имеется также  алгоритм уточнения результатов  запроса, учитывающий дополнительную информацию о связях между документами. Действительно, если много документов по конкретной теме ссылается на один документ, то он, скорее всего, содержит важную информацию по этому вопросу. Поэтому после "взвешивания" документов по описанному выше алгоритму система "Кодекс" добавляет часть его  веса всем документам, на которые документ ссылается. 
      
В пятой версии добавлена обработка атрибутов документов. Система выделяет два типа атрибутов - номер и дата документа. Выделение атрибутов происходит на этапе анализа строки запросов. Если выделяется атрибут даты, то производится поиск документов, у которых один из атрибутов даты (дата принятия, дата редакции и т. д.) совпадает с заданной датой, такие документы получают дополнительный вес. В случае если поисковая фраза содержит числа, то помимо обработки слов фразы будет вестись поиск документов с заданным номером, которые получат дополнительный вес.5

Заключение. 

Имеется ли альтернатива для Поисковых систем Интернета? На этот вопрос однозначно ответить, пожалуй, не получится, так же как не получится ответить на вопрос, имеется ли альтернатива автотранспорту. Возможность и есть и в случае приложения, каких либо умственных усилий в поисках альтернативного направления Поисковым системам можно создать нечто новое, однако стоит ли изобретать колесо повторно…

Конечно, в  том виде, в котором существуют Поисковые системы сейчас в Интернете  долго продержаться не смогут, так  как подгоняемый технологическими процессом Интернет заставляет считаться  с нововведениями и отставание от этого может пагубно отразиться на Поисковых системах, поэтому происходит постоянное совершенствование и  развитие как сами Поисковых систем, так и всех остальных участников Интернета.6 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Список  литературы. 

  1. http://poisk.sandoor.ru/
 
  1. http://www.optimization.ru/articles/traffic2007
 
  1. http://webformula.ru/obzorAlgoritmov_1.html
 
  1. http://www.antula.ru/search-engine.htm
 
  1. http://www.gov.spb.ru/law?help&nd=1100000080

Информация о работе Поисковые системы. Традиционные и новейшие алгоритмы поиска информации