Поисковые системы Интернет

Автор: Пользователь скрыл имя, 19 Ноября 2011 в 13:30, контрольная работа

Описание работы

Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

Содержание

1 Поисковые системы Интернет 3
2 Краткий обзор поисковых указателей России 8
3 Краткий обзор зарубежных поисковых указателей 11
4 Приемы поиска информации 13
5 Основные программы для работы в Интернет 15
6 Средства работы с электронной почтой 20
7 Системы быстрого обмена сообщениями 22
Практическая часть 23
Список использованной литературы 28

Работа содержит 1 файл

информатика.docx

— 51.83 Кб (Скачать)

     Содержание 
 
 

1 Поисковые системы  Интернет 3

2 Краткий обзор  поисковых указателей  России 8

3 Краткий обзор  зарубежных поисковых  указателей 11

4 Приемы поиска  информации 13

5 Основные программы  для работы в  Интернет 15

6 Средства работы  с электронной  почтой 20

7 Системы быстрого  обмена сообщениями 22

Практическая  часть 23

Список  использованной литературы 28 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

     1 Поисковые системы  Интернет

 
 
 

     Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

     Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

     Улучшение поиска — это одна из приоритетных задач современного Интернета (см. про  основные проблемы в работе поисковых  систем в статье Глубокая паутина).

     Поисковые cистемы обычно состоят из трех компонент:

    • агент (паук или кроулер), который перемещается по Сети и собирает информацию;
    • база данных, которая содержит всю информацию, собираемую пауками;
    • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

      Lycos. В Lycos используется следующий механизм индексации:

    • слова в <title> заголовке имеют высший приоритет;
    • слова в начале страницы;
    • слова в ссылках;
    • если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ - релевантность этого документа возрастает.

     Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа "Like this", но намечается его расширение и на другие способы организации поисковых предписаний.

     AltaVista. Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

    • слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы в <Meta> тэгах;
    • ключевые фразы, находящиеся в начале странички;
    • ключевые фразы в ALT – ссылках;
    • ключевые фразы по количеству вхождений, присутствия слов, фраз.

     Если  тэгов на странице нет, использует первые 30 слов, которые индексирует и  показывает вместо описания (tag description)

     Наиболее  интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

     Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

     OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

     Infoseek. В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

    • слова в заголовке <title> имеют наивысший приоритет;
    • слова в теге keywords, description и частота вхождений, повторений в самом тексте;
    • при повторении одинаковых слов рядом выбрасывает из индекса;
    • допускает до 1024 символов для тега keywords, 200 символов для тэга description;
    • если тэги не использовались, индексирует первые 200 слов на странице и использует как описание.

     Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

     WAIS. WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet. 
 
 
 
 
 
 
 
 
 
 
 
 
 

     2 Краткий обзор  поисковых указателей  России

 
 
 

     На  сегодняшний день самой популярной русскоязычной поисковой системой является Яндекс (http://www.yandex.ru). У Яндекса достаточно быстрый поисковый робот. Благодаря ему регистрируемая страница появится в поисковых результатах в течение 2-4 часов. Но это значит, что страница прошла лишь первичную индексацию. После полной индексации, она может исчезнуть из поисковых результатов, если поисковый робот сочтет ее за спам. Поэтому положение web-страницы в результатах поиска нужно отслеживать до тех пор, пока не пройдет полная индексация. Кроме того, список результатов может меняться в зависимости от загруженности серверов. Поскольку база данных Яндекса имеет кластерную структуру и разнесена на несколько серверов.

     Ключевые  слова в мета-тэгах  и не особенно помогают достигать хороших позиций. Здесь стоит употреблять слова, которые встретятся в тексте страницы.

     Однако мета-тэг, используется для выдачи описания страницы в результатах поиска. Это нужно учитывать при его составлении, так как, пользователь по этому описанию принимает решение посетить вас, или нет. Мета-тэги  и не поддерживаются. Важно разместить ключевые слова в тэге "title", заголовках (h1-h6), содержании страницы, "ALT"-тэгах.

     Для определения релевантности Яндекс использует Взвешенный Индекс Цитирования (ВИЦ). Обычный Индекс Цитирования (тИЦ) используется только при сортировке сайтов в каталоге Яндекса. Влияние на положение в результатах поиска оказывает ВИЦ.

     Следующая по популярности поисковая система  в Рунете - Рамблер (http://www.rambler.ru). По оценкам SpyLog Рамблер обрабатывает около 20% всех поисковых запросов Рунета. На Рамблере реализована умная система, которая позволяет выдавать в результатах поиска слова, которые являются синонимами запроса. Еще одной функцией этой умной системы является выдача контекстной рекламы не только по конкретным ключевым словам, но и по фразам, которые тесно связаны с ними.

     Рамблер (в отличие от других поисковиков) умеет извлекать гиперссылки  из объектов Macromedia Flash. Если сайт имеет заставку или навигационные панели, выполненные c использованием этой технологии, Рамблер обработает их, найдет адреса всех страниц сайта и проиндексирует весь сайт. Однако, сами тексты flash-объектов не индексируются. Для сайтов, которые целиком состоят из flash-объектов, рекомендуется создать HTML-копию и зарегистрировать ее в поисковой машине. Роботы Рамблера игнорируют мета-тэги, кроме. Комментарии в документе роботы Рамблера тоже не сканируют.

     Роботы  Рамблера также справляются с  конструкциями фреймов. Максимальный размер документа для роботов  составляет 200 килобайт. Документы большего размера усекаются до указанной  величины.

     Следующая по популярности – поисковая машина Апорт (http://www.aport.ru/). Эта страница доступна почти с любой страницы Апорта, например, с главной страницы Апорта. Добавлять в поисковую систему Апорт следует русскоязычные сайты, а также сайты имеющие непосредственное отношение к российскому Интернету.

     С момента добавления сайта в Апорт  до момента его появления в  поисковой базе проходит от двух-трех дней до двух недель.

     Ключевые  слова не имеют определяющего  значения при определении релевантности  документа. Но разумное использование  этого тэга рекомендуется.

     В отличие от многих других поисковых  систем, Апорт не применяет каких-либо специальных санкций к сайтам, пытающимся обмануть поисковую систему  с помощью спама, однако добиться подобным способом желаемого результата не получится. Поэтому не стоит писать невидимые тексты, вбивать сотни ключевых слов, не имеющих никакого отношения к содержанию документа и т.д.

     Вот перечень основных критериев, которые  Апорт учитывает при сортировке сайтов: густота ключевых слов, расстояние между ключевыми словами в  тексте документа, место, где встречаются  поисковые слова (заголовок, описание, мета-тэг и т.п.), внешний вид  шрифта, которым набраны ключевые слова (размер, жирность, цвет), количество ссылок из Интернета на данный документ, использование ключевого слова  в тексте ссылок из Интернета на данный документ. Окончательный процент соответствия документа запросу строится как некая функция от всех этих показателей.

     Конечно нельзя оставить без внимания Google.ru. Несмотря на то, что Google все еще отстает от русских поисковых машин по количеству пользователей, он становится все более и более популярным. Некоторые опросы общественного мнения указывают на 3-9% поискового трафика в Рунете, но большинство аналитиков полагают, что его доля в поиске русских сайтов составляет не менее 10%. Google применяет общие правила индексирования к любому web-содержанию, независимо от того принадлежит ли доменное имя к Рунету или нет. Это является большим преимуществом перед русскими конкурентами, которые не так дружелюбны с web-сайтами с доменным именем типа 'yoursite.com', 'yoursite.org', и т.д. и требуют от них подавать заявки на включение по электронной почте. Однако, скорее всего Google не будет иметь существенных претензий на лидерство в Рунете, пока не усовершенствует свой алгоритм на основе морфологии русского языка.

Информация о работе Поисковые системы Интернет