Организация профессионального поиска в сети Интернет

Автор: Пользователь скрыл имя, 10 Октября 2011 в 02:40, контрольная работа

Описание работы

Проблема поиска во Всемирной паутине очень сложная, так как информация разбросана по миллионам веб-серверов, которые находятся во всех концах земного шара. Тем не менее, в настоящее время существуют системы, обеспечивающие пользователя средствами достаточно быстрого поиска в Паутине нужной ему информации. Для поиска информации на веб-серверах разработано несколько десятков различных поисковых систем, обладающих разными возможностями по заданию образцов поиска, созданию запросов, а также разными множествами просматриваемых узлов и страниц.

Содержание

Введение……………………………………………………………………...…3

1. Типы поисковых систем…………………………………………………….4

1.1. Поисковые каталоги………………………………………………….....-

1.2. Поисковые машины…………………………………………………….5

2.Принцип работы поисковых машин…………………………………….....7

2.1.Google…………………………………………………………………….8

2.2.Rambler……………………………………………..……………………11

3. Советы по формированию запросов………………………….……….....17

Заключение………………………………………………………………….....19

Список используемой литературы...............................................................

Работа содержит 1 файл

Курсовая по информатике.doc

— 122.00 Кб (Скачать)

 

Содержание

Введение……………………………………………………………………...…3

1. Типы поисковых систем…………………………………………………….4

   1.1. Поисковые каталоги………………………………………………….....-

   1.2. Поисковые машины…………………………………………………….5

2.Принцип работы поисковых машин…………………………………….....7

   2.1.Google…………………………………………………………………….8

   2.2.Rambler……………………………………………..……………………11

3. Советы по формированию запросов………………………….……….....17

Заключение………………………………………………………………….....19

Приложение 1.........………………………………………………………...…20

Приложение 2................................................................................................20

Список  используемой литературы...............................................................21 

 
 

 

Введение

  В настоящее время, по оценкам специалистов, на веб-серверах Интернета размещено несколько миллиардов веб-страниц, содержащих информацию практически по всем сферам человеческой деятельности. Получение доступа к нужной информации в том случае, если известен адрес веб-страницы или веб-узла, не вызывает затруднений – достаточно ввести этот адрес в соответствующее поле обозревателя, и через некоторое время страница отобразится в его окне. Другое дело, если адрес пользователю неизвестен. Можно конечно в поисках нужных адресов покопаться в специальных изданиях – различных «белых» и «желтых страница Интернета». Однако печатные издания часто содержат устаревшую информацию. Кроме того, что просмотреть информацию даже о миллионе страниц, не говоря уже о миллиардах - совершенно немыслимое дело.

  Проблема  поиска во Всемирной паутине очень сложная, так как информация разбросана по миллионам веб-серверов, которые находятся во всех концах земного шара. Тем не менее, в настоящее время существуют системы, обеспечивающие пользователя средствами достаточно быстрого поиска в Паутине нужной ему информации. Для поиска информации на веб-серверах разработано несколько десятков различных поисковых систем, обладающих разными возможностями по заданию образцов поиска, созданию запросов, а также разными множествами просматриваемых узлов и страниц.

  Итак, в своей работе я хотела рассмотреть различные типы и принцип действия поисковых систем. 
 
 
 

  1.Типы поисковых систем

  За  время существования Интернета  предпринимались различные попытки  организации поисковых средств. Многие из этих попыток оказались  неудачными, другие же привели к созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет. Рассмотрим поиск информации во Всемирной паутине с помощью нескольких наиболее распространённых систем поиска. Всего же в мире существуют сотни различных поисковых систем, и выбор той или иной системы зависит только от личных пристрастий пользователя.

  Фактически, поисковая система (поисковик) является специализированным веб-сервером, на котором постоянно накапливается информация о веб-страницах и сайтах, находящихся на обычных веб-серверах Интернета. Эта информация в специальном кратком виде сохраняется и периодически обновляется на дисковых устройствах системы. Любой пользователь может обратиться к поисковому серверу и сформулировать запрос на поиск нужной информации. Поисковая система, просматривая свои диски, находит и пересылает пользователю обнаруженные адреса веб-страниц, которые содержат нужную информацию.

  1.1.Поисковые каталоги

  Все поисковые системы делятся на две большие группы: поисковые каталоги и поисковые машины. Поисковые каталоги представляют собой огромные базы данных, которые содержат адреса веб-узлов по всему информационному пространству Интернета. Эти базы данных созданы и периодически обновляются людьми – специалистами в области систематизации веб-ресурсов. Каталоги организованы в иерархическую многоуровневую структуру – рубрикаторы – и предоставляют пользователям два способа поиска информации. Первый способ напоминает перемещения по списку ресурсов (каталогам и подкаталогам) в окне Проводника операционной системы Windows. На стартовой странице поискового каталога выбирается тема, рубрика верхнего уровня, и после щелчка по названию этой темы в окне отображается список разделов, тем следующего уровня.

  Второй  способ работы с поисковыми каталогами предусматривает выбор нескольких слов, которые существенно отображают смысл запрашиваемой информации. Такие слова принято называть ключевыми. Далее поиск в каталоге напоминает поиск в документе редактора Word: ключевые слова вводятся с клавиатуры в специальное поле веб-страницы поискового каталога, делается щелчок по кнопке Поиск. Специальные механизмы автоматически просматривают все уровни каталогов и сообщают пользователю найденные адреса.

  Наиболее  популярными  поисковыми каталогами в настоящее время в России считаются: один из крупнейших в мире англоязычный каталог Yahoo! (http://www.yahoo.com), а также отечественные каталоги MavicaNet (www.mavicanet.ru), Каталог@Mail.ru (list.mail.ru) и Иван Сусанин (wwwalt.susanin.net).

  1.2.Поисковые машины

  Принцип действия поисковых машин отличается от принципа действия поисковых каталогов. Поисковые машины включают в себя базу данных, поля записей которой содержат адреса веб-страниц, ключевые слова, встречающиеся на этих страницах, и другую информацию, позволяющую охарактеризовать содержимое страниц. Кроме того, в состав поисковой системы входит обязательная программа – поисковый робот, или Spider (паук). Задача поискового робота – в автоматическом режиме просматривать веб-узлы Интернета и при обнаружении ссылки на какую-либо веб-страницу запоминать в специальной таблице – индексе базы данных – её адрес и остальные её характеристики. Такие системы поиска в условиях бурного роста количества веб-страниц непрерывно отслеживают их содержимое, тщательно «прочёсывая» их с помощью своих агентов – «пауков», которые просматривают и индексируют все вновь поступившие страницы. Пользователь, Обращающийся к поисковым машинам, по специальным правилам формулирует запрос, в соответствии с которым осуществляется просмотр индексов. Найденные адреса веб-страниц пересылаются пользователю, направившему запрос.

  В настоящее время наиболее популярными поисковыми машинами являются: Google (http://www.google.com) (также ищет веб-сайты в русскоязычном сегменте), Alta Vista (http://www.altavista.com), Northern Light (http://northernlight.com). К лучшим отечественным поисковым серверам относятся: Яндекс (http://www.yandex.ru), Rambler (http://rambler.ru) и Апорт (http://www.aport.ru).

  Разные поисковые узлы обладают разными скоростями поиска, разными сферами охвата информационного пространства и разными периодами обновления базы данных. Следует отметить, что поисковая система Google располагает в настоящее время самой большой в мире базой данных, насчитывающей свыше трех миллиардов проиндексированных веб-страниц. Кроме того, результаты многих независимых экспертных оценок показывают, что по скорости поиска системе Google в настоящее время практически нет равных.

  Внешний вид, точнее, графическое оформление домашних страниц поисковых серверов, может быть самым разным. Но в любом случае в окне имеется так называемая поисковая форма, содержащая как минимум поле ввода запроса и расположенную рядом кнопку Найти (или Поиск).

Правила работы с поисковыми системами в общих чертах похожи на правила поиска в редакторе MS Word и отличаются друг от друга в деталях. Обычно эти правила приведены в справочных подсистемах поисковых серверов, для доступа к которым следует найти на домашней странице сервера гиперссылку Помощь (Справка, Help) и щелкнуть по ней.

  2.Принцип работы поисковых машин

  Рассмотрим  правила формирования запроса. В простейшем случае он представляет собой слово или последовательность разделенных пробелами ключевых слов, которые должны находиться в разыскиваемых документах. Последовательность может быть осмысленным сочетанием слов, целым предложением или просто набором важных слов, присутствие которых обязательно. Пример запроса, сформулированного в виде целого предложения: Кто получил Нобелевскую премию по литературе в 2001 году? Этот запрос можно сформулировать и как последовательность ключевых слов: Нобелевская премия литература 2001 год. Отметим, что порядок следования ключевых слов в запросе и их грамматическая форма большого значения не имеют. Можно дать такой запрос: литература 2001 Нобелевская год премия.

  Отметим, что большинство поисковых машин не различают заглавных и строчных букв в поисковых запросах. Поэтому запросы, содержащие ключевые слова Нобелевская или нобелевская, приведут к одинаковому результату.

  Независимо от того, в какой грамматической форме слово входит в запрос, поиск учитывает все его формы по правилам русского языка. Например, если в запросе встретилось слово идти, в результате поиска будут найдены ссылки на документы, содержащие слова идти, идет, шел, шла и т. д.

  Поисковые машины игнорируют в запросе союзы и предлоги (кто, где, как, по, на и т. д.). Также игнорируются единичные буквы и цифры. Чтобы включить такие слова в запрос, необходимо использовать специальные символы.

  Для создания более сложных запросов, в которых предусматривается фильтрация по языку, по срокам изменения веб-страницы, по месту расположения образца поиска в документе и т. д., следует щелкнуть по гиперссылке Расширенный поиск. Для получения подробной информации о правилах составления расширенных запросов можно обратиться к справочной системе сервера.

  Сформулированный запрос следует ввести в поле запроса на любой странице поискового сайта, а затем щелкнуть по кнопке Найти (Поиск) или нажать клавишу Enter. Поисковая машина отберет соответствующую запросу информацию и перешлет результат его выполнения пользователю. 

  2.1.Google

  Поисковая система, запущенная в 1998 году и являющаяся ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Главное достоинство Google - объем его индексного файла, который составляет на сегодня более 4,2 миллиардов web-страниц и статей из групп новостей по интересам. В сутки программы-роботы системы индексируют порядка трех миллионов новых и обновленных страниц, при том, что актуализация базы производится каждые 28 дней.

  Второе  несомненное преимущество Google - его  способность индексировать документы не только в виде HTML-файлов, но также документы в форматах PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, что освобождает пользователя от необходимости иметь специальное программное обеспечение для доступа к файлу.

  Следующим важнейшим достоинством является специально разработанный модуль ранжирования результатов - PageRank. Он основан на алгоритме, согласно которому вначале устанавливается структура ссылок во всей Сети, а затем каждая отдельная страница ранжируется в соответствии с числом и значимостью ссылок на нее с других страниц. При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.

  Google отличается высокой степенью  комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу http://www.google.com.ru/. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.

  Итак, Google как и большинство поисковых машин не различает заглавных и строчных букв в поисковых запросах, а также игнорирует в запросе союзы и предлоги. Также игнорируются единичные буквы и цифры. Чтобы включить такие слова в запрос, необходимо использовать символ «+». Например, чтобы найти информацию о Петре Первом в запросе следует указать: Петр +I. Обратите внимание на необходимость пробела между Петр и +. Знак + акцентирует поисковые механизмы на отбор документов, которые обязательно содержат следующее за ним слово. Например, в ответ на запрос частные объявления продажа велосипедов попадет много ссылок на веб-узлы с разнообразными частными объявлениями. А в ответе на запрос частные объявления продажа +велосипедов останутся только объявления о продаже именно велосипедов.

Информация о работе Организация профессионального поиска в сети Интернет