Анализ технологий поиска информации в WWW

Автор: Пользователь скрыл имя, 29 Декабря 2010 в 16:38, курсовая работа

Описание работы

Стремление поисковых систем охватить «Великую Сеть» осталось в прошлом. Информационное пространство World Wide Web растет и обновляется намного быстрее, чем любая поисковая система, заполняет свои указатели новой информацией. Даже поисковые указатели, выполняющие поиск по ключевым словам, сегодня не избавлены от однобокости и ограниченности. В поисковые системы поступают все новые и новые Web-страницы, и поисковые работы не перестают «бороздить просторы Сети», но все больше и больше страниц ускользает от их внимания.

Содержание

Введение ……………………………………………………………………
Глава 1. Теоретические основы поисковых систем интернет
§ 1. Поисковые системы как информационный ресурс……………….

§ 2. Общий вид обобщенной поисковой машины. …………………...
§ 3. Критерии качества поиска. ………………………………………..
§ 4. Анализ языка гипертекстовой разметки. …………………………

Глава 2. Анализ технологий поиска информации в WWW

§ 1. Развитие поисковых систем……………………………………….
§ 2. Основные поисковые системы. ……………………………………

§ 3. Приемы поиска информации. ……………………………………..

§ 4. Технология и результат поиска в WWW. ………………………...

Заключение ………………………………………………………………..

Литература ………………………………………………………………...

Ресурсы Интернет…………………………………………………………

Приложение 1………………………………………………………………

Приложение 2………………………………………………………………

Приложение 3………………………………………………………………

Работа содержит 1 файл

Диплом_2_редак.doc

— 1.27 Мб (Скачать)

     С другой стороны, поисковые указатели  научились выполнять автоматическую каталогизацию своих ресурсов и  предоставлять к ним доступ так  как это принято в поисковых  каталогах. Пример такого подхода являет самый мощный сегодня поисковый указатель Fast Search.

     К метапоисковым системам относится множество поисковых служб второго эшелона. Они принимают от пользователя запрос и размещают его сразу на нескольких поисковых серверах. Потом они собирают поступившую от них информацию, обобщают ее, структурируют, рафинируют (очищают) и передают клиенту. Увеличенное время исполнения запроса компенсируется улучшенным качеством результатов поиска.

     Первое  время крупные поисковые системы  спокойно смотрели на существование «под собой» метапоисковых систем. Однако в последнее время в связи с бурным развитием идеи порталов все чаще и чаще встречаются запреты на метапоиск. Крупные поисковые системы начали заниматься им сами, привлекая ресурсы коллег на взаимовыгодной основе.

     Входя в World Wide Web с помощью броузера, мы попадаем на страницу, которая задана в настройках броузера в качестве начальной. Пользователь может легко перенастроить свой броузер на работу с другой начальной страницы. Какую именно страницу он будет использовать — его личное дело. Опыт показывает, что очень удобно иметь в качестве начальной страницы такую, на которой уже представлено несколько ссылок на основные поисковые системы. Удобно здесь же иметь доступ к электронной почте. Неплохо, если на этой странице всегда отображаются последние новости из мира политики, искусства, спорта, бизнеса и т. п. Такие «готовые» начальные страницы называются порталами. В мире существует множество порталов — настройте свой броузер на тот, который наилучшим образом соответствует личным интересам. Хорошие порталы предоставляют пользователю возможность персональной настройки «под себя». Надо только включить флажки против тех поставщиков информации, которые интересны, и выключить у тех, которые неактуальны.

     Борясь  за клиентов, многие поисковые системы  превращаются в порталы. Это означает, что они не только готовы поставлять результаты поиска, но и способны выполнять  другие услуги. Часто название порталов начинается со слова My (Мой/Моя/Мое). Например, если на поисковых системах Yahoo! или Alta Vista предлагают подписаться на службу MyYahoo или MyAltaVista, значит, речь идет о том, чтобы стать постоянным клиентом удобного портала.

     Другой  причиной того, что поисковые системы  постепенно превращаются в порталы, стал тот факт, что им стало трудно одновременно и «копировать» пространство WWW, и индексировать гигантские базы данных, и обслуживать запросы клиентов. Поисковые системы начинают распределять обязанности. Задачи по контролю за Web-пространством постепенно передаются на партнерских основаниях «третьим» фирмам, а сами поисковые системы сосредоточиваются на обслуживании клиентов и привлечении рекламодателей, то есть превращаются в порталы.

     В последние года появился новый тип служб, позволяющих быстро разыскивать информацию в Сети, — это так называемые рейтинговые службы. Они занимают промежуточное положение между поисковыми службами и порталами и могут использоваться как в том, так и в другом качестве.

     Суть  рейтинговой службы состоит в  том, что на ее сервере создаются тематические списки ссылок на наиболее популярные Web-ресурсы. Хоть эти списки и небольшие, представительность их велика, поскольку именно эти ссылки предпочитают большинство клиентов Сети.

     Когда выбираем одну из ссылок, представленных на сервере службы, срабатывает счетчик, и рейтинг этого ресурса увеличивается. Каждый следующий посетитель видит, сколько «нащелкали» его предшественники, и понимает, какой ресурс ему стоит посмотреть. Поиск с помощью рейтинговых служб можно рассматривать как поиск «по рекомендациям». Он не может претендовать на объективность, но когда речь идет о темах, имеющих общественный интерес, таких как новости, политика, спорт, кино, музыка, компьютерные игры и т. п., этим «рекомендациям» можно доверять. Самая популярная отечественная рейтинговая служба — Rambler (www.rambler.ru). Наиболее популярная зарубежная рейтинговая служба — Webside Story (www.hitbox.com). 

     § 4. Анализ языка гипертекстовой разметки.

     В процессе сканирования поисковой машине приходится получать доступ к ресурсам Сети, такой доступ реализуется в рамках одного из протоколов прикладного уровня. В связи с этим принято различать поисковые машины по области сканирования, прежде всего это – гипертекстовые базы данных Web, ресурсы всемирного пространства GopherSpace, FTP-архивы.

     В мире Internet технологии WWW произвели революцию, следствием которой стали следующие факторы:

  • неуклонное нарастание числа серверов в Сети, реализующих http-протокол;
  • перенесение наиболее востребованных ресурсов на Web-узлы с серверов, поддерживающих другие протоколы доступа;
  • разработка системы межпротокольных шлюзов WWW-Gopher, WWW-FTP, WWW-Telnet.

     Существование шлюзов между протоколами прикладного  уровня позволяет, например, поисковой машине WWW сканировать ресурсы FTP-архивов, тем не менее инфраструктуры меж протокольных шлюзов оказывается явно недостаточно для формирования однородного информационного пространства. В результате для исчерпывающего профессионального поиска информации в сети следует прибегнуть к специальным поисковым средствам, характерным для среды того или иного протокола, а не ограничиваться наиболее развитыми сегодня средствами поисковых машин WWW, полагаясь на полноту охвата остальной части Internet благодаря шлюзам. По этой причине поиск информации в Internet сегодня поднимается на уровень технологии.

     Система информационно-поисковых машин Сети на данный момент является достаточно развитой, чтобы говорить об информационной самодостаточности Internet. Последнее означает, что с высокой вероятностью, профессионально подготовленный пользователь, располагающий полным арсеналом поисковых средств и пониманием логики размещения и именования различных информационных объектов Сети, в состоянии обнаружить заданный ресурс, если тот существует реально, за конечное число операций поискового процесса.

     Несмотря  на стремительное нарастание присутствия  в Сети средств мультимедиа, на сегодняшний  день основным носителем информации в ней остается текстовый документ. Наиболее эффективным средством поиска является поиск по запросу пользователя, в случае, когда доступ к информации заданного типа происходит впервые и место ее нахождения не представляется очевидным.

     И в этом случае остается серьезная  проблема: список документов, полученных в результате отклика на пользовательский запрос, сводящийся, например, к указанию единственного ключевого слова для поиска совпадений с ним в пространстве WWW-страниц, может содержать в себе тысячи пунктов. Даже в этой ситуации результат может иметь практическое значение, если отображаемый список представляет документы в порядке убывания их предполагаемой значимости для пользователя. Такое упорядочивание списка, или ранжирование документов по релевантности (реальной пригодности), не является тривиальным и реализуется каждой поисковой машиной в рамках своего алгоритма.

     Так, в процессе ранжирования Web - документов из списка отклика на заданный поисковый запрос кажется естественным учесть не только частоту, с которой термин встречается на странице, но и область текста (аннотация, заголовок и т. д.), где он был употреблен, поскольку очевидно, что та степень, в которой термин соответствует основному смысловому содержанию документа, зависит от места его употребления. Благодаря тому, что для разметки текста в WWW используется язык HTML, обладающий средствами особого выделения, например, заголовков разного уровня на странице, оказывается достаточно просто реализовать алгоритм сканирования Web – страницы с учетом разного веса различных текстовых полей. Многие поисковые машины WWW позволяют заранее задавать в поисковом запросе то текстовое поле, в котором должен встретиться данный термин.

     Программа World Wide Web инициирует каналы передачи связной информации по всему земному шару. Язык HTML предоставляет простой формат для предоставления этой информации. Требуется, чтобы все программы, совместимые с WWW, могли поддерживать язык HTML. Программа WWW использует протокол Internet (протокол передачи гипертекста – HTTP), который позволяет передавать кодированную информацию между клиентом и сервером.

     Гипертекст  и гипермедиа являются для Web фундаментальными технологиями. Гипертекст – это легкая в использовании, однако чрезвычайно мощная система связанных слов и фраз, позволяющая осуществлять навигацию между страницами. Эти слова представляют собой перекрестные ссылки на другие слова на других страницах и обычно выделяются на странице Web более ярким цветом.

     Гипермедиа – это среда, основанная на внутренних взаимосвязях. Если немного развить концепцию гипертекста, включив в него фотографии, видео и звук, получим то, что известно как гипермедиа. Обычно они присутствуют в каждой странице Web и понятны каждому браузеру Web. Без гипертекста и гипермедиа не было бы World Wide Web.

     В настоящее время в World Wide Web сосуществуют три различных версии или уровня HTML, версии 0.9 или 1.0 в основном сосредотачиваются на управлении заголовками, списками и форматировании символов. Команды HTML легки в освоении и использовании.

     В заключение несколько замечаний о перспективах развития языка гипертекстовой разметки. Если его первая версия (HTML 1.0) была направлена на представление языка как такового, где описание его возможностей носило скорее рекомендательный характер, вторая версия (HTML 2.0) фиксировала практику использования конструкций языка, третья версия представляла новые возможности, расширяя набор тагов HTML в сторону отображения научной информации и таблиц, а также улучшения стиля компоновки изображений и текста, то версия 3.2 призвана упорядочить все нововведения и согласовать их с существующей практикой. Кроме этого, в версии 3.2 снова делается попытка формализации интерфейса пользователя гипертекстовой распределенной системой.

     Сейчас  World Wide Web Consortium уже опубликовал рабочие материалы спецификации HTML 4.0, где реализованы дополнительные средства с мультимедиа и ряд полезных упрощений.

     Подводя итог сказанному, сегодня можно говорить о развитии информационно-поисковых  систем в двух направлениях:

  1. Возрастание чувствительности поисковых программ к полям сканируемого документа, что фактически приводит к их внедрению в технологию WWW и подразумевает активное использование операторов языка HTML для идентификации значимых для поиска полей документа.
  2. Развитие возможностей сужения поиска путем усложнения запроса (применением логических операторов, операторов близости и т. д. для наложения связей на элементы запроса).
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

     ГЛАВА 2

     Анализ  Технологиий поиска информации В WWW.

        §1. Развитие поисковых систем.

         Первоначально, когда Интернет только начинал развиваться, объём доступной информации был сравнительно невелик, и пользователей сети было немного. Основными пользователями сети Интернет на начальных стадиях её развития были сотрудники разнообразных исследовательских лабораторий и университетов. В то время основным назначением сети был обмен информацией между исследовательскими учреждениями, её возможности использовались для претворения в жизнь различных научных проектов. На начальных этапах развития, в связи с относительно небольшими размерами сети, область информационного поиска была намного менее актуальна, нежели сейчас.

         В качестве первоначального способа организации доступа к информационным ресурсам посредством сети Интернет использовались каталоги сайтов, в которых обычно применялась тематическая группировка ссылок. Первооткрывателем в данной области стал Yahoo, появившийся в апреле месяце 1994 года. Со временем количество сайтов, содержащихся в каталоге, увеличивалось, и разработчики создали специальный механизм поиска по каталогам. Но подобную систему, конечно же, нельзя назвать поисковой, ведь область поиска была строго ограничена только теми ресурсами, которые присутствовали на данном сайте.

        Каталоги получили широкое распространение и использовались повсеместно, но Интернет динамически развивался, и вместе с ним развивались и методы поиска. В настоящее время довольно сложно найти систему, основанную на каталогах.

      Это очень просто объяснить, ведь даже современный каталог, который будет содержать гигантское количество ресурсов, сможет обеспечить доступ лишь к малой части содержащейся в сети информации. Самый большой на сегодняшний день каталог сети, называемый Open Directory Project или DMOZ, он включает в себя информацию о 5 миллионах ресурсов, а это немного. Ведь, для сравнения, база такой всемирно известной поисковой системы как Google содержит порядка 8 миллиардов документов.

          Первая полноценная поисковая система на просторах сети Интернет появилась только в 1994 году, это была WebCrawler.

И уже  через год, в 1995 году запускаются проекты поисковых систем AltaVista и Lycos. Поисковая система AltaVista на протяжении многих лет удерживала лидирующие места в области поиска информации в сети.

Информация о работе Анализ технологий поиска информации в WWW