Поисковые системы. Традиционные и новейшие алгоритмы поиска информации

Автор: Пользователь скрыл имя, 16 Апреля 2012 в 09:54, контрольная работа

Описание работы

Поисковые системы Интернета, пожалуй, один из способов двигаться вперед по направлению развития и совершенствования. Развиваясь, сами Поисковые системы развивают все остальное вокруг себя выгодно принуждая совершенствовать качество самого Интернета, а так же технологий связанных с этим.

Содержание

1. Введение……………………………………………………………………………………………..3
2. Поисковая система………………………………………………………………………………3
3. Исследование модели поведения пользователей при работе с поисковыми системами………………………………………………………………………4
4. Обзор алгоритмов работы поисковых систем…………………………………..16
5. Алгоритмы поиска………………………………………………………………………………19
6. Заключение…………………………………………………………………………………………23
7. Список источников……………………………………………………………………………..25

Работа содержит 1 файл

информационные системы.docx

— 295.87 Кб (Скачать)

Из полученных графиков хорошо видно, что вероятность  распределения кликов по результатам  поисковой выдачи очень сильно зависит  от тематики запроса.

5. Влияние  качества сниппета на распределение вероятности переходов с поисковых систем.

Тематики  являются важным, но не единственным фактором, влияющим на распределение вероятности  кликов пользователей в поисковых  системах. Предположили, что еще одним таким фактором является краткая аннотация в результатах поиска к ссылке на сайт – сниппет.

Опираясь  на отклонения от усредненной статистики кликов в одной и той же тематике, выбрали чуть менее ста запросов для различных сайтов при оценке причин отклонений. Было выявлено, что большинство отклонений, прежде всего, связано с качеством сниппетов.

Оценку сниппетов в результатах поиска проводили вручную, так как их влияние на принятие решения о клике по ссылке субъективно. Вероятность клика очень сильно зависит от эмоций, вызываемых у пользователей поисковых систем той или иной аннотацией.

Для упрощения  понимания того, как оценивали  сниппеты, приведены примеры хорошего и плохого сниппета.

Хороший сниппет:

Плохой сниппет:

Проведя работу по оценке сниппетов для списка запросов, получили следующую дельту распределения вероятностей переходов на сайты в зависимости от качества аннотации к ссылке для одной и той же тематики:

Как видно  из графика, сниппеты способны как уронить в несколько раз вероятность перехода, так и значительно её повысить.

6. Зависимость  трафика от популярности запроса.

Последним фактором, который исследовали, была популярность запросов. Было интересно, влияет ли популярность запроса на модель поведения пользователей при работе с поисковыми системами.

Распределив запросы по шкале популярности, то есть по частоте, с которой пользователи поисковых систем задают эти запросы, получили следующую дельту для вероятности  переходов на сайты с поисковых  систем для одной и той же тематики при одинаковом качестве сниппетов:

Из графика  хорошо видно, что снижение популярности запросов приводит к незначительному  повышению количества кликов, осуществляемых пользователями поисковых систем.

Опираясь  на полученные данные, можно сделать  вывод, что продвижение по длинному списку менее популярных запросов дает больше трафика, чем продвижение  по меньшему списку более популярных (при незначительной разнице в  частотах запросов в тематике).

В некоторых  случаях количество переходов с  менее частотных запросов может  оказаться таким же, как и с  самых популярных.

7. Выводы.

Полученные  в результате исследования данные дают общее представление о том, как  себя ведет пользователь поисковых  систем, вводя навигационные запросы. На основе этих данных можно сделать  следующие выводы:

Не все  тематики и запросы одинаково  популярны в поисковых системах. Не стоит опираться на данные усредненной  и обобщенной статистики популярности поисковых систем. Продвигайтесь  во всех поисковых системах одновременно и не делайте предпочтений ни одной, в противном случае вы рискуете недополучить более 50% от возможного трафика.

Не стоит  по своему соседу и другу оценивать  эффективность поисковой оптимизации. Для каждого типа бизнеса и  тематики она своя.

Сниппеты - один из главнейших элементов поисковой оптимизации. Не забывайте про них. Уделяя внимание сниппетам, вы сможете существенно увеличить посещаемость своего сайта и более эффективно тратить свои деньги на услуги поисковой оптимизации. Вкладывая деньги в поисковую оптимизацию, не забывайте, что вы платите за целевую рекламу, а не за позиции в поисковой выдаче.

Убедитесь в том, что вы продвигаетесь по оптимальному списку запросов. Если падение  популярности запросов в вашей тематике не очень велико, увеличивайте количество запросов, по которым будет вестись  оптимизация вашего сайта на несколько  десятков или сотен. Количество кликов по результатам поисковой выдачи у пользователей Интернета возрастает при уменьшении популярности запросов. Продвигаясь только по наиболее частотным  запросам, вы рискуете недополучить существенную часть посетителей на ваш сайт.

Количество  кликов в естественных результатах  поиска почти всегда в несколько  раз выше, чем в «гарантированных показах» в контекстной рекламе. Для контекстной рекламы, показывающейся справа от поисковой выдачи в «гарантированных показах», максимальная вероятность  клика составляет 4%, а у первой позиции поисковой выдачи она  может быть выше 25%. Для «Специальных размещений» в системе контекстной  рекламы Яндекса вероятность клика скорее всего примерно такая же, как и для стандартной выдачи.2

Обзор алгоритмов работы поисковых  систем.

Что объединяет разные алгоритмы, в чем заключается  их отличие. Задавая одинаковый запрос в различных поисковиках, вы обратите внимание, что выдача в них отличается. Ответ заключается в том, что все поисковые системы ведут себя по-разному, но основная причина заключается в том, что поисковики использует различные алгоритмы. Этот порядок работы алгоритмов необходим поисковым системам для определения релевантности в соответствии с запросом пользователя. Алгоритм поисковых систем рассматриваются как математические формулы, которая принимается для всех решений. Алгоритм использует ключевые запросы и предоставляет релевантные результаты в виде решения задач. Ключевые запросы определяются поисковыми роботами, где проверяется контент страницы и релевантность запросов на основе формул алгоритмов, которые у каждой поисковой системы разные.

Есть сервисы, которые собирают информацию о часто встречающихся запросах и о страницах наиболее часто просматриваемых, и времени потраченным на каждую страницу. Полученная информация применяется для выдачи результатов, которые самые популярные у пользователей. Множество запросов, к которым применена эта технология, влечет за собой спам. Еще один подход учитывает анализ ссылок, где хорошие тематические страницы ссылаются на другие хорошие тематические страницы. Определяя, как ссылаются эти страницы друг на друга, и поисковик определяет какая страница релевантная. Точно так же, некоторые алгоритмы поисковых систем отображают внутреннюю ссылочную структуру на рисунке. Следуя внутренним ссылкам для оценки простоты навигации и оценки соотношения страниц.

Эти базы данных создавались на основе сгруппированной  пользователем информации. Данный метод  рассматривается как архаичный, хотя существует не мало директорий, составляющих базы поисковых систем, такие как Open Directory и DMOZ, которые группируются вручную. Материалы в некоторых поисковых системах формируется вручную, как только поисковые роботы соберут необходимую информацию. Алгоритмы анализируют расположение ключевых слов на страницах с высокой частотностью воспринимаются как более релевантные, это называется плотность ключевых слов.

Обобщённо алгоритм работы поисковой системы  и рейтинг, который она выстраивает  на основе запроса (ключевое слово), учитывает  и анализирует следующее:

  1. Общее количество ключевых слов на сайте.
  2. Общее количество ключевых слов на странице.
  3. Соотношение общего числа слов на сайте к количеству ключевых слов на сайте.
  4. Соотношение общего числа слов на странице к количеству ключевых слов на странице.
  5. Индекс цитирования.
  6. Популярность тематики.
  7. Число запросов по конкретному ключевому слову за определённый период времени.
  8. Общее количество страниц сайта.
  9. Применение стиля к страницам сайта.
  10. Общий объём текста сайта.
  11. Общий объём сайта.
  12. Общий объём каждой страницы сайта.
  13. Общий объём текста каждой страницы сайта.
  14. Возраст сайта.
  15. Название URL сайта (имя домена)
  16. Периодичность обновления информации на сайте.
  17. Последнее обновление страниц сайта.
  18. Общее число картинок (рисунков) на сайте.
  19. Общее количество мультимедийных файлов.
  20. Наличие замещающих надписей на рисунках (картинках).
  21. Длину (в количестве символов) замещающих надписей рисунков (картинок).
  22. Использование фреймов.
  23. Язык сайта (русский или иностранный).
  24. Размер шрифта, которым оформлены ключевые слова.
  25. Жирность шрифта ключевых слов.
  26. Написаны в разрядку или нет ключевые слова.
  27. Написаны или нет заглавными буквами ключевые слова.
  28. Как далеко от начала страницы располагаются ключевые слова.
  29. Стиль заголовков и наименований ключевых слов.
  30. Наличие и анализ мета-тэгов.
  31. Наличие и содержание описания и свойств страницы.
  32. Наличие файла "робот".
  33. Географическое месторасположение сайта.
  34. Комментарии внутри программного кода сайта.
  35. К какому типу страниц относится каждая страница сайта : html или asp.
  36. Наличие в составе сайта flash модулей.
  37. Наличие в составе сайта страниц с незначительными отличиями друг от друга.
  38. Соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт.
  39. Наличие "шумовых слов" ("стоп слов").
  40. Общее количество гиперссылок сайта.
  41. Количество внутренних гиперссылок сайта.
  42. Количество внешних гиперссылок сайта.
  43. Глубина сайта.
  44. Ряд других специальных технических параметров.3                

Примечание: 

Многие поисковые  машины алгоритма, как такового, вообще не имеют. Их работа сводится к очистке  текста сайта от программного кода и выстраиванию слов, встречающихся  на сайте по их частоте.

Чем сложнее  алгоритм работы поисковой машины, тем, с одной стороны, больше вероятность  получения наиболее точных и полных результатов, но, с другой стороны, больше вероятность ошибок в работке  самого алгоритма.

Усложняя  алгоритм работы поисковой машины можно  как достичь более полных и  точных результатов, так и, наоборот, получить менее точные и полные результаты.

Любой инженер  знает, что чем сложнее какая-либо машина, тем, с одной стороны, она  может выполнять больше функций, но, с другой стороны, больше вероятность  выхода её из строя.4 

Алгоритмы поиска.

Расширенный поиск.  

C помощью  расширенного поиска можно найти  документы с заданными характеристиками - атрибутами. В ИС «Кодекс» выделены следующие виды атрибутов: 
Текст - форматированный текст документа, практически неограниченного размера. Каждый документ может состоять из нескольких текстовых объектов (например, текст закона и комментарии к нему). Подсистема поиска рассматривает все тексты одного документа как единое целое. 
Строка с текстом - неформатированный текст длиной до 255 символов (например, наименование, место опубликования).

Строка с  номером - строка символов длиной до 255 символов. В отличие от «строки  с текстом» в данном атрибуте система  не выделяет отдельные слова. 
Дата - дата в диапазоне от 01.01.32000 до нашей эры до 01.01.32000 нашей эры.

Ссылка - указатель  на другой объект в базе данных. С  помощью ссылок в системе реализованы  классификаторы (линейные и иерархические) и деление поискового пространства на разделы.

 
По каждому из атрибутов возможности  поисковой машины различны.  
      
При контекстном поиске система предоставляет следующие возможности:  
      
     - задание в запросе логических формул, в том числе с операторами расстояния. В качестве «слов» могут выступать цифры, буквенно-цифровые последовательности, слова которые должны быть найдены в заданном виде, а также шаблоны - буквенно-цифровые последовательности с символами "*" (любая подстрока, в том числе пустая) и "?" (любая буква или цифра); 
     - встроенный морфологический анализатор, позволяющий автоматически найти все существующие словоформы для большинства слов русского и английского языков.

Для ускорения  контекстного поиска система создает  индексы по тексту. В целях уменьшения размера, эти индексы не содержат подробной информации о положении  слова внутри документа, поэтому  в случае использования операторов расстояния подсистема поиска работает в два прохода: на первом отбирает документы, содержащие заданные слова, на втором считывает их тексты в  память и проверяет выполнение условия по расстоянию. 
     

При поиске по номеру возможен поиск на точное совпадение строки; поиск строк, начало которых совпадает с заданным; поиск строк содержащих подстроку, совпадающую с заданной. Возможен поиск по шаблону (при использовании символов "*" и "?") - поиск строк, совпадающих с заданной, причем символ "*" может совпадать с любой подстрокой (в том числе пустой), символ "?" может совпадать с любой буквой или цифрой.  
      
При поиске по дате также можно выбрать один из режимов поиска: точно, по, с, с..по.

В режиме "точно" ищутся документы, в которых дата точно совпадает с заданной, в режиме "по" - документы с датой до указанной (включая указанную), в режиме "с" - с датой после указанной (включая указанную), в режиме "с..по" - документы, дата которых входит в заданный интервал, причем документы с датами, совпадающими с заданными также считаются удовлетворяющими условию.

С помощью  поиска по классификатору можно найти  все документы, имеющие данное значение классификатора. В режиме ИЛИ (по умолчанию) - выбираются все документы, содержащие хотя бы одно значение классификатора из элементов списка поиска; И - выбираются документы, имеющие все элементы списка; КРОМЕ - выбираются документы, не содержащие ни одного значения.     

 
Интеллектуальный  поиск.      

 
Интеллектуальный поиск позволяет  найти документ по смыслу содержащейся в нем информации, то есть документы по заданной теме. 
      
В системе реализован алгоритм с использованием компьютерной обработки документа. Согласно гипотезе Ципфа смысл документа зависит от частоты терминов, встречающихся в документе. Предположим, у нас есть набор документов и нас интересуют документы на тему "земельный налог". Очевидно, что документы, в которых больше данных слов, с большей вероятностью содержат интересующую нас информацию. Правда, здесь надо учесть, что документы бывают разного объема. Например, в многостраничном документе, содержащем 5 раз слово "налог", скорее всего меньше говорится о налогах, чем в документе из трех строчек, в котором слово налог встречается 2 раза. Поэтому сравнивается не количество слов, а частота, с которой эти слова встречаются в документе. При этом частота слова определяется как отношение количества этих слов в тексте к общей сумме слов в тексте.

Информация о работе Поисковые системы. Традиционные и новейшие алгоритмы поиска информации