Поисковые системы. Традиционные и новейшие алгоритмы поиска информации

Автор: Пользователь скрыл имя, 16 Апреля 2012 в 09:54, контрольная работа

Описание работы

Поисковые системы Интернета, пожалуй, один из способов двигаться вперед по направлению развития и совершенствования. Развиваясь, сами Поисковые системы развивают все остальное вокруг себя выгодно принуждая совершенствовать качество самого Интернета, а так же технологий связанных с этим.

Содержание

1. Введение……………………………………………………………………………………………..3
2. Поисковая система………………………………………………………………………………3
3. Исследование модели поведения пользователей при работе с поисковыми системами………………………………………………………………………4
4. Обзор алгоритмов работы поисковых систем…………………………………..16
5. Алгоритмы поиска………………………………………………………………………………19
6. Заключение…………………………………………………………………………………………23
7. Список источников……………………………………………………………………………..25

Работа содержит 1 файл

информационные системы.docx

— 295.87 Кб (Скачать)

Министерство  образования и науки Российской Федерации

Федеральное агентство по образованию

Государственное образовательное учреждение

высшего профессионального  образования 
 

Контрольная работа по информационным системам

на тему: «Поисковые системы. Традиционные и новейшие алгоритмы поиска информации.» 
 

                                                                                           
 
 
 
 
 
 

Иваново – 2009 

Содержание

  1. Введение……………………………………………………………………………………………..3
 
  1. Поисковая система………………………………………………………………………………3
 
  1. Исследование  модели поведения пользователей  при работе с поисковыми системами………………………………………………………………………4
 
  1. Обзор алгоритмов работы поисковых систем…………………………………..16
 
  1. Алгоритмы поиска………………………………………………………………………………19
 
  1. Заключение…………………………………………………………………………………………23
 
  1. Список источников……………………………………………………………………………..25
 

 

Введение.

Поисковые системы Интернета, пожалуй,  один из способов двигаться вперед по направлению  развития и совершенствования. Развиваясь, сами Поисковые системы развивают  все остальное вокруг себя выгодно  принуждая совершенствовать качество самого Интернета, а так же технологий связанных с этим.

Как и во всех других отраслях, в Интернете  существуют свои лидеры, которые прошли испытание временем и добились каких  либо значимых результатов, что в  свою очередь позволило занять определенные ниши и позиции в мировой паутине. Поисковые системы Интернета, словно огромные столпы на которых держится весь процесс движения.

Конечно, много  может быть несовершенно как в  поиске, так и в технологиях, и в наши дни, несмотря на то, что уже достаточная доля Интернет трафика имеет свои предпочтения, все же в Интернете появляются новые поисковые системы, которые, к сожалению так и остаются неизвестными, уходя в неизвестность.1

Поисковая система.

Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Как правило, основной частью поисковой системы  является поисковая маши́на (поисковый движок) - комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность(степень соответствия запроса и найденного, т.е. уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.

Улучшение работы поисковых систем — это  одна из приоритетных задач сегодняшнего Интернета.

По данным компании Net Applications в декабре 2007 года рыночная доля Google в мире составляла 77.04 %, Yahoo — 12.46 %, MSN — 3.33 %, Microsoft Live Search — 2.57 %, AOL — 2.12 %, Ask — 1.38 %, AltaVista — 0.13 %, Excite — 0.07 %, Lycos — 0.02 %, All the Web — 0.02 %.

По данным аналитической компании comScore все поисковые сайты в декабре 2007 года обработали 66 млрд. 221 млн. поисковых запросов. Яндекс попал в статистику и находится на 9-ом месте.

Исследование  модели поведения  пользователей при  работе с поисковыми системами

Главный вопрос для заказчиков поисковой  оптимизации - «Как оценить качество оказанной услуги?». Суть этого вопроса - проблема эффективности затрат на поисковую оптимизацию, а также  выявление проблем и путей  их решения.

Этот же вопрос не менее актуален и сложен для самих оптимизаторов. Им важно  убедить своих клиентов в том, что предоставляемые ими услуги оптимальны для них и наиболее выгодны. Один из ключевых критериев  качества SEO-услуг - количество переходов  пользователей Интернета с поисковых  машин.

В исследовании использовали еженедельную статистику по 15 000 поисковым запросам в трех наиболее популярных в Рунете поисковых  системах («Яндекс», «Рамблер», Google) для 5500 сайтов, которые составили 58 000 пар сайт-запрос.

Для исследования были отобраны навигационные запросы, составившие 80% от общего числа фраз, и 20% транзакционных запросов. Информационный тип запросов не учитывался. При  этом следует отметить явно выраженную принадлежность отобранных запросов к  определенным тематикам, что повлияло на построение графиков среднего CTR в  результатах поиска.

Цели исследования:

Сравнение популярности ряда тематик в различных  поисковых системах.

Выявление закономерностей в распределении  трафика по позициям поисковой выдачи.

Определение влияния аннотаций (сниппетов) на модель поведения пользователей при работе с поисковой выдачей.

Определение влияния популярности запросов на изменение  модели поведения пользователей  при работе с поисковыми системами.

Для получения  результатов использовались различные  методы математической статистики и  линейной алгебры.

1. Популярность  поисковых систем. Так ли все  просто?

Многие знакомы  со статикой популярности поисковых  систем, она фигурирует в ряде статей на сайтах и в журналах.

Ниже приведена  статистика популярности поисковых  систем в России, предоставленная Liveinternet.ru за июль 2007 года:

Большинство заказчиков услуг поисковой оптимизации  в России, опираясь на данные этой статистики, ставят перед оптимизатором целью  улучшение позиций сайта только в «Яндексе». Но так ли верно считать, что весь Рунет подчинен усредненным и обобщенным данным, а большая часть поискового интернет-трафика создается только «Яндексом»?

Решено проанализировать трафик, идущий с поисковых систем по различным запросам. Опираясь на данные счетчика Liveinternet.ru по поисковым фразам и тематикам, видно, что многие тематики и запросы в них не подчиняются общей статистике.

Примеры нескольких запросов и тематик, где популярность поисковых систем имеет совершенно другой вид, чем в общей статистике:

Как видно  из приведенных диаграмм, не для  всех тематик и не для всех запросов справедлива общая статистика популярности поисковых систем.

Популярность  Google при поиске известных личностей достаточно легко объяснить. Google всегда на первых строчках поисковой выдачи старается показать базы знаний - Википедию и другие. Каждый, хотя бы раз пользовавшийся Google при поиске подробной информации об интересующей персоне, скорее всего, отдаст предпочтение последнему.

Примеры наглядно показывают, что концентрировать все свое внимание только на «Яндексе» для многих запросов ошибочно. У каждой поисковой системы своя аудитория, значительно отличающаяся от аудиторий других поисковых систем. Даже для разных запросов одной и той же тематики приоритеты и интересы пользователей поисковых систем могут варьироваться.

2. Модели  поведения пользователя при работе  с поисковыми системами.

Самым интересным во время проведения исследования было получить обобщенную модель поведения  пользователей при работе с поисковыми системами, выраженную в числовом вероятностном  эквиваленте.

Опираясь  на результаты нескольких вычислений, в которых использовали различные  математические модели, получили ряд коэффициентов вероятностей для позиций в результатах поиска. Эти коэффициенты в обобщенном виде можно представит следующими графиками:

Особая модель поведения пользователей при  работе с «Рамблером» формируется  из-за того, что «Рамблер» по умолчанию  выводит на экран 15 результатов поиска, а не 10, как остальные поисковики.

График показывает усредненную вероятность клика  по той или иной позиции. Использовать приведенные на графиках данные для  подсчета трафика было бы неверным, так как диапазон колебания значений вероятности клика очень велик  по сравнению с самой величиной  вероятности клика по той или  иной позиции.

3. Видимость  или трафик?

Ранее компанией  Enquiro research было опубликовано исследование распределения внимания пользователей поисковых систем, проведенное компаниями Did-it, Enquiro и Eyetools в 2005 году. В результате этого исследования были получены коэффициенты распределения внимания по поверхности экрана при работе с поисковыми системами:

1, 2 и 3-я  позиции - коэффициент 1

4-я позиция  - 0,85

5-я позиция  - 0,6

6 и 7-я  позиция - 0,5

8 и 9-я  позиция - 0,3

10-я позиция  - 0,2

Приведя коэффициенты усредненного распределения вероятности  кликов по позициям в поисковой выдаче к единичной шкале, получили следующие  графики:

Очевидно, что  график распределения вероятности  клика не соответствует данным о  распределении зон внимания пользователя при работе с результатами поисковой  выдачи. Причиной тому - ряд психологических  факторов, которые влияют на решение  нажать на ту или иную ссылку в выдаче.

К таким  факторам можно отнести то, что:

снижение  доверия к результатам выдачи у среднестатистического пользователя Интернет не совпадает с распределением его внимания по позициям, так как  результаты работы поисковых систем пользователями, скорее всего, оцениваются  как независимый рейтинг. А все, что находится в рейтинге, заслуживает  внимания, независимо от того, на первой, пятой, или десятой позиции находится  сайт. То есть основное внимание пользователя приковано к первым пяти результатам  поиска, но вероятность клика по позициям распределена более равномерно. Иногда пользователь делает несколько  кликов по результатам поиска, чтобы  сравнить разные предложения, особенно при вводе транзакционных запросов.

Люди, перед тем как кликнуть на ту или иную ссылку, читают текст ссылок и аннотации к ним, и только потом принимают решение о клике, что существенно может изменить картину распределения внимания при работе с поисковой выдачей и вероятностей кликов.

4. Зависимость  количества трафика от тематики.

Предположив, что распределение вероятности  кликов по результатам выдачи зависимо от того, к какой тематике относится  запрос, мы разделили изучаемые нами сайты на тематики. Всем запросам, по которым были зафиксированы переходы на эти сайты с поисковых систем, присвоили те же тематики, что и  сайтам.

В результате, разделив запросы на группы, получили следующие графики, наиболее наглядно отражающие влияние тематики на модель поведения пользователя при работе с поисковыми системами:

Для каждой из приведенной на графике тематики есть запросы, для которых распределение  вероятности клика имеет другой вид, но в целом для выбранных  нами в исследовании поисковых фраз графики верны.

Информация о работе Поисковые системы. Традиционные и новейшие алгоритмы поиска информации