Поисковые возможности и характеристики WWW-систем (на примере Yandex, Rambler и пр.)

Автор: Пользователь скрыл имя, 23 Февраля 2013 в 18:31, реферат

Описание работы

Internet - это крупнейшая мировая компьютерная сеть. Сейчас Internet имеет примерно 20 миллионов пользователей более чем в 50 странах. WWW доступен в основном через Internet; но, говоря WWW и Internet мы имеем ввиду не одно и то же. WWW можно отнести к внутреннему содержанию, т.е. это какой-то абстрактный мир знаний, в то время как Internet является внешней стороной глобальной сети в виде огромного количества кабелей и компьютеров.

Содержание

ВВЕДЕНИЕ 3
1.1 История возникновения WWW 4
1.2 Понятие гипертекста 5
1.3 Архитектура построения WWW 6
2.1 Краткая история развития поисковых систем 8
2.2 Основные характеристики поисковой системы 9
2.3 Состав и принципы работы поисковой системы 10
2.4 Обзор основных Российских поисковых систем 12
3.1.Метапоисковая система 16
3.2.Принцип работы метапоисковой системы 16
ЗАКЛЮЧЕНИЕ 18

Скачать полностью (85.32 Кб) Сколько стоит заказать работу?

Работа содержит 1 файл

Реферат.docx

— 89.01 Кб (Скачать)

Поисковая машина "Апорт" была впервые продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Тогда она искала только по сайту russia.agama.com. Потом она начала искать по четырем, потом по шести серверам... В общем, день рождения и фактический старт системы сильно "размазались" по времени, а официальная презентация "Апорта" состоялась только 11 ноября 1997 года. К тому времени в его базе был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов. Создателем системы выступила компания "Агама" - разработчик программного обеспечения для платформы Windows, главным из которых являлся корректор орфографии "Пропись". Лингвистические разработки "Агамы" использовались при создании поисковой машины, в которой, скажем, в отличие от "Рамблер", изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса.

Важнейшими свойствами первой версии "Апорта" являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проиндексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).

Апорт 2000" стал первой российской поисковой машиной, практически реализовавший две базовых технологии американской поисковой машины Google. Первая - учет "ранга страницы" (Page Rank), который характеризует ее популярность (вычисляется по количеству ссылок на ресурс из внешнего Интернета: вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного; ссылки, включающие слова запроса, имеют больший вес, чем, скажем, слово "здесь"). Вторая - обработка запроса, ориентируясь на HTML-код страницы. В "Апорт 2000" учитывается также вхождение слов запроса в URL.

Национальная почтовая служба Mail.ru – это не только поисковая система, но и один из крупнейших порталов российского Интернета. Ежедневная аудитория Mail.ru - более 5 миллионов пользователей. Общее число регистраций со дня основания около 60 миллионов. Mail.ru - самый быстроразвивающийся российский Интернет-ресурс. Через почтовые ящики Mail.ru ежедневно проходит более 25 миллионов писем. Mail.ru занимает лидирующую позицию среди бесплатных почтовых сервисов, предоставляя своим пользователям почтовый ящик неограниченного размера с защитой от спама и вирусов, переводчиком, проверкой правописания, архивом для хранения фотографий и многое другое.

В 1998-м году программисты, работающие в питерском офисе американской софтверной компании DataArt, создали новое ПО для почтового веб-сервера, которое в дальнейшем предполагалось продавать западным компаниям. Чтобы протестировать сервис, его временно выложили в открытый доступ для российских пользователей, а сервис вдруг стал стремительно набирать популярность.

3.1.Метапоисковая система

Ни для кого не секрет, что всемирная сеть Интернет, содержащая постоянно растущий огромный объем динамически изменяющейся информации, развивается небывало бурными темпами. Для того, чтобы как-то упорядочить этот непрерывный поток данных, а самое главное, дать возможность пользователям Сети находить нужную информацию, были созданы специальные поисковые системы. Каждая такая система имеет индекс, несущий служебную информацию о содержимом проиндексированных документов, где каждому слову текста соответствует частота его употребления и координаты данного слова в тексте.

Каждая поисковая система имеет только свое собственное, ограниченное ее ресурсами, множество документов, которые доступны для поиска. Ни одна из подобных систем не сможет охватить всех ресурсов Интернет, поэтому в любой момент может возникнуть ситуация, когда информационные потребности пользователя не смогут быть удовлетворены. Как правило, в этом случае пользователь переходит на другую поисковую систему и пытается искать то, что ему нужно, там.

Для решения данной проблемы и расширения возможности поиска, были созданы системы, названные метапоисковыми. Они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы множества поисковых систем. За счет этого полнота поиска в таких системах максимальна и вероятность нахождения нужной информации очень высока.

3.2.Принцип работы метапоисковой системы

При проектировании метапоисковой системы нужно решить ряд проблем.
Прежде всего, из полученного от поисковых систем множества документов необходимо выделить наиболее релевантные, то есть соответствующие запросу пользователя. Как правило, создатели метапоисковых систем не совсем оправданно надеются, что поисковые системы, которые они используют, возвращают релевантные результаты поиска, и слишком полагаются на позицию, на которой в данной поисковой системе находится документ.

Этот стандартный подход представлен на рис. 1. В таких системах анализ полученных описаний документов не производится, что может поставить нерелевантные документы, идущие первыми в одной поисковой системе, выше релевантных в другой, чем существенно понизить качество самого поиска. Этот принцип оказался хорошим при создании автором анализатора позиции сайта в поисковых системах, но в целом для систем метапоиска оказался неудовлетворительным.

Рис.1 Стандартная метапоисковая система

При разработке следующего поколения метапоисковых систем были учтены недостатки, присущие стандартным метапоисковым системам. Были созданы системы с возможностью выбора тех поисковых машин, в которых, по мнению пользователя, он с большей вероятностью может найти то, что ему нужно (рис. 2)

Рис. 2. Следующее поколение метапоисковых систем

Кроме этого, такой подход позволяет уменьшить используемые вычислительные ресурсы метапоискового сервера, не перегружая его слишком большим объемом ненужной информации и серьезно сэкономить трафик. Здесь нужно отметить, что в любой системе метапоиска наиболее узким местом, в основном, является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов, не является слишком трудоемкой операцией, потому что затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у поисковых серверов.

Как пример систем, имеющих подобную организацию, можно назвать Profusion, Ixquick, SavvySearch, MetaPing.

ЗАКЛЮЧЕНИЕ

Успех технологии World Wide Web определен двумя основными факторами: простотой и использованием протоколов межсетевого обмена семейства TCP/IP, которые являются основой Internet. Простота и удобство применения привели к росту числа пользователей WWW и привлекли к нему внимание коммерческих структур.

Поисковые системы, уже давно ставшие неотъемлемой частью Интернета, это огромные и сложные механизмы, представляющие собой инструмент поиска информации. Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что базы данных не являются совершенными. Интеллектуальные агенты - новое направление, лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат

Рассмотренные выше поисковые машины далеки от совершенства.

Считается, что идеальная поисковая машина должна отвечать следующим требованиям:

1. простота в использовании

2. чётко организованный и обновляемый индекс.

3. быстрый поиск в базе данных и быстрое реагирование.

4. надёжность и точность результатов поиска.

Internet продолжает развиваться с неослабевающей интенсивностью, стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает сложно найти необходимый документ. Постоянно обновляемые и модернизируемые поисковые системы помогают облегчить нам выполнение этой задачи.

Приложение 1

Архитектура WWW-технологии

Приложение 2

Архитектура World Wide Web к середине 1996 года

№ п/п	Понятие	Содержание
1	2	3
1	API	спецификация разработки прикладных модулей, которые встраиваются в сервер, точнее редактируются совместно с модулями сервера.
2	FTP-архивы	это в первую очередь источники программного обеспечения, успешно конкурирующие с Web-узлами, которые специализируются на продаже и представлении коллекций программ.
3	Http	это протокол передачи данных в сети интернет. С английского переводится как "протокол передачи гипертекста". Существуют клиенты, которые отправляют запросы на сервер, а сервер, который обрабатывает поступающие запросы, отвечает на них. На сегодняшний день http является одним из самых распространены протоколов интернета.
4	Java-апплеты	мобильные коды Java, ссылки на которые вмонтированы в тело документа.
5	WWW (Word Wide Web- всемирная информационная сеть)	гипертекстовая, гипермедийная, распределенная, интегрированная, глобальная, децентрализованная система, реализующая самую передовую и массовую технологию, работает по принципу клиент-сервер.
6	Сервер	компьютер, который обеспечивает работу сайта. Первоначально сервер должен передавать страницы сайта том или иному браузеру по протоколу HTTP. Кроме этого, с сервера должны запускаться все скрипты, которые используются на сайте.
7	База данных HTML-документов	часть файловой системы, которая содержит текстовые файлы в формате HTML и связанные с ними графику и другие ресурсы.
1	2	3
8	Информационные страницы	последовательное изложение информации с возможностью гипертекстовых контекстных переходов
9	Каталоги ресурсов	представляют собой размещаемые в Сети базы данных с адресами ресурсов и самым разным масштабом накопленной информации и охватом тематики.
10	Навигационные страницы	совокупность гипертекстовых ссылок, которые позволяют ориентироваться в материалах Web-узла
11	Поисковые машины	представляют собой мощные информационно-поисковые системы, размещаемые на серверах свободного доступа.
12	Скрипт	программа, которую пишут как правило на языке Perl, C, php или JavaScript. Данную программу можно вызвать из гипертекстового документа и выполнить на машине WWW-сервере. В основном применяют скрипты для того, чтобы обеспечить диалог с читателем гипертекста, а также чтобы, используя их, была возможность украсить HTML-страницы счетчиком посещений либо случайными сообщениями.
13	URL	это аббревиатура от Uniform Resource Locator (универсальный локатор ресурса). Указывает в World Wide Web местоположение файлов на других серверах сети. URL включает в себя протокол доступа, например http, ftp, telnet и т.д.
14	Протокол TCP/IP	набор протоколов IP (Internet Protocol – межсетевой протокол) и TCP (Transmission Control Protocol – протокол управления передачей). IP – обеспечивает дейтограммную доставку пакетов, основная задача – маршрутизация пакетов TCP – работает на транспортном уровне, устанавливает логическое соединение между отправителем и получателем, обеспечивает между ними сеансовую связь.
15	Шлюзы	программы, обеспечивающие взаимодействие сервера с серверами других протоколов.
	Сетевой протокол	набор правил, позволяющий осуществлять соединение и обмен данными между двумя и более включёнными в сеть устройствами.
16	Дейтограммный способ	передача пакетов данных как отдельных, не связанных между собой пакетов.
17	Язык HTML	язык описания гипертекстовых документов, обеспечивающий связь документов ссылками.
	telnet	это протокол удаленного доступа. TELNET дает возможность абоненту работать на любой ЭВМ сети Интернет, как на своей собственной, то есть запускать программы, менять режим работы и так далее. На практике возможности лимитируются тем уровнем доступа, который задан администратором удаленной машины.
	HTML	(англ. сокр. HyperText Markup Language - язык гипертекстовой разметки) На этом языке браузеру сообщается, какой именно текст и другие элементы (картинки, таблицы, формы) и каким образом нужно отображать на странице. На языке HTML не программируют, а верстают - особым образом размечают текст для публикации в интернете. Язык HTML позволяет связывать страницы между собой с помощью ссылок (линков). Наличие ссылок являтся фундаментальным свойством веб-страниц. Ссылкой может являться не только некоторая часть текста, но и картинка или ее часть.
	CGI	приложение - программа, написанная специально для Интернет. CGI-приложения могут быть созданы с использованием различных языков программирования и поддерживаются практически всеми веб-серверами. CGI это интерфейс работы браузера и веб-сервера. Позволяет расширить функциональные возможности сервера. Используя CGI, можно работать в диалоговом режиме с пользователями, которые обращаются к вашему сайту. На теоретическом уровне, CGI позволяет расширить возможности сервера в отношении анализа (интерпретации) ввода, поступающего от браузера, и возвращать информацию, основанную на введенной информации пользователя. На практическом уровне, CGI - это интерфейс, позволяющий программисту записать программы, которые легко связываются с сервером.
	интерфейс	это класс, который обеспечивает программисту простой или более программно-специфический способ доступа к другим классам
	MIEM	MIME Типы говорят браузерам как обращаться с конкретными расширениями. Большинство типовMIME установлены на серверах по всему миру. Например, тип MIME text/html большинство серверов приравнивает к расширениям htm, html, и shtml.
	HTML форма	это инструмент, с помощью которого HTML-документ может послать некоторую информацию в некоторую заранее определенную точку внешнего мира, где информация будет некоторым образом обработана.
	VRML-страница	это такой же объект, как и обычные страницы Website, только, написанная на другом языке. К VRML-страницам можно применять все те же механизмы генерации, что и к страницам HTML.
	Java	В применении к Интернету - технология создания "апплетов": небольших программ, которые загружаются на компьютер пользователя вместе со страницей сайта и позволяют "оживлять" эту страницу. Апплеты могут обеспечивать странице дополнительную функциональность, реализовывать мультипликационную рекламу или даже представлять собой небольшую игру, встроенную в страницу сайта.
	Тэги	Теги - это специальные команды, написанные на HTML (Hyper Text Marker Language) - языке гипертекстовой разметки, заключенные между двумя треугольными скобками < >; теги бывают как парные (например, теги <body> и </body>, при чем <body> открывающий, а </body> - закрывающий, т.е. отличие - в знаке "/") и не парные, которые надо запомнить (например, тег <br>). Тег, те́ги (иногда тэг, англ. tag) в SGML (в HTML, WML, яыках семейства XML) — элемент языка разметки гипертекста, более правильное название — дескриптор. Например, текст википедии, заключенный между начальным тегом <small>и конечным тегом </small> (от англ. small маленький) предписывает отображать его меньше основного текста.
	Telnet	Протокол эмуляции удаленного терминала

Список источников и литературы:

Голицына О.Л., Максимов Н. В., Партыка Т. Л., Попов И. И. Информационные технологии: Учебник. – М.: ФОРУМ.: ИНФРА-М, 2004. – 544 с.
Архитектура WWW-технологии [Электронный ресурс]: Режим доступа: http://kunegin.narod.ru/ref3/ap_ip4/model.htm
Характеристики поисковых систем [Электронный ресурс]: Режим доступа: http://www.seonews.ru/masterclasses/detail/29814.php
Поисковые системы [Электронный ресурс]: Режим доступа: http://revolution.allbest.ru/programming/00004675_0.html
Метапоисковые системы [Электронный ресурс]: Режим доступа:

http://citforum.ru/internet/search/metaping.shtml

Информация о работе Поисковые возможности и характеристики WWW-систем (на примере Yandex, Rambler и пр.)