Поисковые системы

Автор: Пользователь скрыл имя, 24 Февраля 2012 в 13:05, реферат

Описание работы

Первые поисковые системы появились в сети Интернет более десяти лет назад. Тогда они выполняли лишь одну функцию – поиска ссылок к недавно созданным страницам. Число пользователей сети было невелико и количество информации относительно небольшим. В большинстве случаев пользователями Интернет были сотрудники различных университетов или научных организаций.

Содержание

ВВЕДЕНИЕ 3
Поисковые системы. Обзор 5
Самые популярные поисковые системы в Европе 5
Самые популярные поисковые системы в России на 2008 год 5
Яndex 7
Rambler.ru. 8
Google.ru. Google – поисковая система “номер 1″ в мире. 9
ЗАКЛЮЧЕНИЕ 15
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 16

Работа содержит 1 файл

Поисковые системы.doc

— 151.50 Кб (Скачать)


СОДЕРЖАНИЕ

 

ВВЕДЕНИЕ

Поисковые системы. Обзор

Самые популярные поисковые системы в Европе

Самые популярные поисковые системы в России на 2008 год

Яndex

Rambler.ru.

Google.ru. Google – поисковая система “номер 1″ в мире.

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

             


ВВЕДЕНИЕ

 

Первые  поисковые системы появились  в сети Интернет более десяти лет  назад. Тогда они выполняли лишь одну функцию – поиска ссылок к недавно созданным страницам.  Число  пользователей сети было невелико и  количество информации относительно небольшим. В большинстве случаев  пользователями Интернет были сотрудники различных университетов или научных организаций. В то время поиск нужной информации в сети был не столь актуален, как теперь. Сегодня же поисковые системы превратились в многофункциональный сервис. Они позволяют пользователям находить в сети Интернет самую разнообразную информацию, благодаря чему пользуются огромным успехом.

Самой первой поисковой системой в интернете  был «Wandex» [2] ( сейчас прекратил свое существование),  который был создан Мэтью Грэем  из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах.  На сегодняшний день в мире существует около  8000-9000 поисковых систем, которые классифицируют  следующим образом:

1.        Поисковая система, которая включает более миллиарда документов. Например,  Google, Yahoo!, Lycos  и другие;

2.        Национальные и региональные системы, содержащие сотни миллионов ресурсов:  Яндекс, Rambler;

3.        «Отраслевые» поисковые системы, в которых содержится  от нескольких миллионов до десятков и даже сотен миллионов ресурсов. Они  ограничивают  свое знание о мире отдельными темами, например компьютерами, автомобилями, книгами, музыкой, видео и т. п.;

4.        «Фирменные» поисковые системы, обслуживающие отдельные корпорации, иногда отрасли. Их уровень информированности измеряется от нескольких тысяч до нескольких сотен тысяч ресурсов;

5.        И последний вид -  индивидуальные поисковые средства (до нескольких тысяч ссылок), представленные частными лицами. Обычно они выполнены просто в виде удобных списков ссылок или небольших каталогов.


Поисковые системы. Обзор

 

Самые популярные поисковые системы в Европе

 

Исследовательская компания comScore провела в марте 2008 года измерение популярности поисковых систем среди европейских интернет-пользователей:

1.        Google с 79,2%;

2.        eBay, собравший 3,1% запросов;

3.        «Яндекс»,  с 2,2% запросов ;

4.        Другие поисковые системы -  15,5%.

Самые популярные поисковые системы в России на 2008 год

 

Если сказать, что поисковая система Яндекс - самая популярная среди российской аудитории - то это не будет открытием или сенсацией. Да, действительно, Яндекс - это поисковик номер один в российском сегменте Веба. Многие источники гласят, что на Яндекс приходится аж 70% посетителей, а на остальные поисковики остается 30% [5]. Но последние статистические данные указывают на некоторое снижение популярности Яндекса, все больший процент аудитории отвоевывает Google - мировой лидер поиска и сервиса Веб 2.0. Позицию Рамблера, который последнее время обосновался на третьем месте, занял поиск от почтового сервиса Мейл.ру. Рамблер же стремительно теряет популярность [8].

Итак, в процентом соотношении поисковики распределились:

1.        50% - Яндекс;                                                       

2.        38% - Google;

3.        6.5% - Mail;

4.        2.9% - Rambler;

5.        2.6% - Другие поисковые системы.

 

Процентное соотношение популярности поисковых систем

 

Как правило  Rambler предпочитают люди среднего и страшего возраста. Yandex — интернет-пользователи в возрасте 20—30 лет. Поисковая система Google популярна среди молодежи до 20 лет. Интересно также, что Yandex чаще всего ипользуют женщины, тогда как среди приверженцев Google заметно больше мужчин.

Поисковые системы интернета (поисковые машины, поисковики) - это автоматизированные службы, со специальным программным обеспечением для глобального поиска, предоставляющие пользователю информацию по введенному запросу в виде слов или словосочетаний.

Каждая поисковая система интернета обладает роботом (спайдером), который просматривает обнаруженные в Интернете страницы, проходит по их ссылкам и вносит информацию о содержании страниц в базу данных поисковой системы. Этот процесс называется индексацией сайта [1]. Спустя некоторое время робот автоматически проводит переиндексацию, чтобы зафиксировать изменения в документах.

  Режим деятельности у поисковых систем интернета различается. К примеру, Alta Vista обновляет индекс значительно реже поисковой системы Google.

После введения запроса, по команде пользователя включается программа, называемая поисковым механизмом. Эта программа сравнивает введенные пользователем ключевые слова с содержимым индекса, для нахождения соответствующих документов. Алгоритм поиска у поисковых систем интернета также отличается. Не всегда то, что Вы видите на первой странице в одной поисковой системе, встретится вам в другой. К тому же робот не человек и естественно, не может прочитать ваши мысли. Поэтому часто, бывает не просто найти нужную вам информацию.

Рассмотрим три поисковые системы для сравнения [4].

Яndex

 

Поисковик Yandex появился 23 сентября 1997 г. Разработчик, компания CompTek, представила новую  поисковую систему на выставке Softool. Ранее эта компания занималась производством  информационно-поисковых систем.

Логотип поисковой системы “Яндекс”

На сегодняшний день Яндекс занимает лидирующие позиции в поисковом трафике Рунета. В своей базе данных эта поисковая система имеет 5,4 миллиона сайтов, 2,5 миллиардов страниц. Общий объём индекса равен 62 терабайтам!

После ввода запроса в поисковую строку вы получите по 10 ссылок на каждой странице выдачи результатов. Этот параметр можно изменить в настройках результатов поиска.  Можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличаться, так как обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска — по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации[37]). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Поиск Яндекса позволяет искать документы на русском, татарском, украинском, белорусском, казахском, английском, немецком и французском языках с учётом морфологии этих языков и близости слов в предложении. Помимо веб-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), Rich Text Format (RTF), двоичных форматах Word (.doc), Excel (.xls), PowerPoint (.ppt), Flash (.swf), RSS (блоги и форумы).

Rambler.ru.

 

Поисковая система Rambler была создана в 1996 году. Rambler понимает и ищет на трёх языках: русский, английский и украинский. Раньше Rambler был самой популярной поисковой системой в России, но позже уступил Яндексу.

Поисковая система Rambler содержит миллионы документов с более чем 42 тысяч сайтов (имен DNS) России и стран СНГ. Имеет развитый язык запросов и гибкую форму вывода результатов. Поиск Rambler включен в стандартную поставку русской версии Microsoft® Internet Explorer 4.0.

 

Логотип поисковой системы “Rambler”

 

Rambler имеет в своём арсенале не только поисковую строку, но и много дополнительных сервисов. Так Rambler первые в России организовали регистрацию.

По данным LiveInternet.ru, доля «Рамблера» на рынке поисковых систем составляет около 4,5% пользователей, что почти в десять раз меньше, чем у Яндекса.

 

Google.ru. Google – поисковая система “номер 1″ в мире.

 

В месяц Google обрабатывает более 41 млрд запросов. Эта американская поисковая система зарекомендовала себя почти во всех странах мира. Ею пользуются примерно 62% всех пользователей интернета. Google – самый дорогой бренд в мире.

 

Логотип поисковой системы “ Google”

 

Поисковая система Google ищет информацию на 117 языках! Казалось бы, имея столько плюсов, ею должны пользоваться все, но в России поисковой системой Google пользуются чуть более 35% граждан (в США, к примеру, более 60%).

 

Преимущества и недостатки поисковых систем

Название поисковой системы

Преимущества

Недостатки

Яндекс

1)Постоянное развитие системы.

2) Качество выдачи растет, все больше удобных сервисов предлагает компания: каталог, карты, новости, прогноз погоды, почта.

3)Глубокий морфологический  анализ обрабатываемых терминов.

4)Обладает хорошим  механизмом распознавания одного  документа в нескольких кодировках  или на зеркальных серверах.

5) оригинально сконструированный  механизм выдачи результатов.

6) огромная индексная  база.

1)Разница в выдаче при наборе слова с большой (маленькой) буквы (иногда выдача меняется, иногда нет).

2)Частое выпадение секторов поисковой базы - когда исчезают части сайтов из выдачи и восстанавливаются через 2-5 дней.

3)Обновление индексов поисковой базы происходит недостаточно часто и регулярно.

Rambler

1) Система  работает с большой скоростью  поиска.

2) Обновление поискового  индекса происходит несколько  раз в день.

3) Поисковик всегда находит самые свежие документы и последние новости.

4) Обладает близким к оптимальному выводом результатов поиска.

5) производит ранжирование  результатов в зависимости от  частоты употребления и местоположения  искомых терминов.

6) Один и тот же документ в различных кодировках показывается только один раз, а его конкретные адреса суммируются в списке, идущим за резюме.

1) На величину индекса релевантности влияет время существования сайта в сети.  Эта особенность позволяет пользователям находить ресурсы, которые давно существуют, успешно развиваются, а не сайты-однодневки. Но такой подход значительно затрудняет попадание в выдачу новых сайтов, информация на которых подчас оказывается актуальной и, возможно, более важной для пользователя.

2) невозможность осуществления поиска по целой фразе указывая в запросах предельное расстояние искомых терминов друг от друга.

Google

1) Очень  мощная поисковая система, которая  находится в постоянном развитии.

2) База индексов  этой системы обновляется раз  в два дня, качество выдачи  очень высокое, найти необходимый документ или информацию довольно легко.

3) Система ориентирована  в основном на ссылки, причем  учитываются как входящие, так  и исходящие ссылки с ресурса.

4) Способна выдавать результаты на запросы по семантике языка программирования (исходный код поиска).

1) Нередко  встречаются ссылки на сайты с уже устаревшей информацией.

2) Случается, что ссылки, которые находятся в результатах поиска, ведут на сайт, находящийся в стадии разработки.

3) На запрос «фильм» и «фильмы» результаты поиска будут отличаться.

4) отсутствие возможности указать конкретную грамматическую форму слова, либо ударение также значительно усложняет процесс поиска информации.

 

"Идеальная" поисковая система должна:

1.        Иметь в наличии доступные и понятно изложенные правила по специальному синтаксису каждой отдельной поисковой системы.

Изложение доступных  и понятно изложенных правил по специальному синтаксису присутствует в следующих  поисковых системах:

        Яndex;

        Google;

2.        Иметь высокий уровень релевантности выдаваемой информации.

Релевантность - это по сути степень соответствия, релевантность страницы это степень соответствия страницы введенному поисковому запросу. То есть, ввели запрос «заказать аренду автомобилей» и поисковая система выдала вам страницы содержащие информацию о том, как и где сделать заказ на аренду автомобилей. Это релевантные страницы, страницы соответствующие вашему запросу [7].

Учитывая опыт использования  поисковых систем в жизни в  целом, можно выделить поисковые  системы:

        Яndex;

        Google;

3.        Иметь спрос на поисковые системы, которые больше напоминают Интернет-портал, где можно завести почтовый ящик, узнавать курс валют и прогноз погоды, читать блоги и форумы.

Это:

        Яndex;

        Google;

        Rambler;

4.        Также  оптимизаторы не могут ясно понять, каким должен быть, «хороший» сайт в понимании поисковика и как сделать его таким, чтобы поисковик считал его наиболее релевантным по запросам.

Решение этой проблемы хорошо реализовано в  поисковой системе MSN Search. В системе ранжированием занимается не только поисковик, но ему также помогает человек-редактор. Благодаря этому, при осуществлении поиск по ключевому слову, команда специалистов компании отслеживает наиболее частые запросы, вводимые в поисковую форму, и подбирает сайты, наиболее релевантные тематике запроса, а так же вручную отбирают и классифицируют их, и вносят в определенные рубрики директории. Что, например, в сравнении с самой популярной поисковой системой мира – Google, которая сама определяет релевантность Интернет-страниц (страница, на которую ссылаются чаще, более релевантна и значит более популярна) помогает избежать этой проблемы [3].

Ранжирование - это сортировка страниц, соответствующих запросу пользователя, по степени убывания релевантности запросу [6].

Получается, что всем необходимым критериям  не соответствует ни одна из рассмотренных  поисковых систем. Ближе всего к идеалу находятся поисковые системы Яndex, Google. За ними следует Rambler.


ЗАКЛЮЧЕНИЕ

Информация о работе Поисковые системы