Классификация и будущее информационно-поисковых систем

Автор: Пользователь скрыл имя, 10 Марта 2011 в 13:07, реферат

Описание работы

В данном реферате рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. Представлен материал по применяемым в настоящее время информационно – поисковым каталогом полнотекстовыми и гипертекстовым поисковым системам.

Содержание

Введение ………………………………………………………………...…3
Раздел 1. Информационные системы…………………………………….4
1.1. Понятие информационных систем……………………..……………4
1.2. Структура информационных систем……………………………...…4
1.3.Классификация информационных систем…………………………...5
Раздел 2.Информационно поисковые системы……………………….…7
2.1. Исторические предпосылки развития поисковых систем…….....…7
Раздел 3.Понятие поисковых систем……………………………….........9
3.1.Особенности поисковых систем…………………………………..…9
* структура сети………………………………………………......11
* структура работы поисковых систем…………………….........13
3.2.Характеристика поисковых систем……………………………….…14
3.3.Проблемы и возможности поисковых систем…………………....…20
Заключение……………………………………………………………..….21
Список литературы………………………………………………………..22

Работа содержит 1 файл

Інформатика реф.doc

— 136.00 Кб (Скачать)

                      Особенности поисковых систем.

  В работе поисковый процесс представлен  четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после  поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности). Более удобная нелинейная схема поиска информации  состоит из следующих этапов:

  1. Фиксация информационной потребности на естественном языке;
  2. Выбор поисковых сервисов сети и формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);
  3. Выполнение созданных запросов;
  4. Предварительная обработка полученных списков ссылок на документы;
  5. Обращение по выбранным адресам за искомыми документами;
  6. Предварительный просмотр содержимого найденных документов;

  7.Сохранение  релевантных документов для последующего  изучения;

  8. Извлечение  из релевантных документов ссылок  для расширения запроса; 

  9. Изучение  всего массива сохраненных документов;

  10. Если  информационная потребность не  полностью удовлетворена, то возврат  к первому этапу.

  Процесс поиска имеет чрезвычайно глубокий дидактический аспект – так, установлено  что применение диалоговых информационных систем приводит к формированию у  рядовых пользователей такого стиля информационно-поисковой деятельности, который обычно свойственен наиболее выдающимся ученым.

  В большинстве  случаев информационная потребность  возникает после изучения какой-либо новой информации, полученной пользователем. Часто возникает ситуация, когда пользователь уже обладает некоторым массивом документов по искомой тематике. Предлагается использовать эти документы для автоматизированного составления поискового запроса с помощью специализированной системы управления документами (СУД) [6] (система находится в стадии разработки).

  Система должна осуществлять индексацию всех документов пользователя. В процессе индексации все слова, содержащиеся в документах, разбиваются по следующим  семантическим классам: стоп-слова; наиболее частотные слова бытового (разговорного) языка; общекультурная терминология; общенаучная терминология; известные системе термины предметной области; неизвестные слова. Разбиение осуществляется на основе соответствующих словарей, которые должны быть составной частью системы. К неизвестным словам будут отнесены в первую очередь многие специальные слова предметной области. Туда же попадут новообразованные термины и слова, содержащие ошибки.

  Обработка результатов поиска.

  После получения  в результате поиска в сети некоторого множества документов, среди них необходимо выделить наиболее релевантные. Наличие “сообществ” не облегчает эту задачу. Можно выделить следующие несколько классов наиболее частых ситуаций :

  1. Отсутствие в исследуемом сегменте сети искомой информации. Подобная ситуация описана в [10]. В этом случае следует перейти к другому сегменту, т. е. обычно исследовать ресурсы, созданные на других языках.
  2. Найденные “сообщества” содержат информацию не по требуемой тематике, а главным образом по другим, близким к искомой.
  3. Обнаружено слишком большое количество информационных ресурсов.

  В последних  двух случаях необходимо осуществить  автоматический перебор всех найденных  документов и определить степень  близости их к исходному запросу. Более 20 метрических мер близости, пригодных для сравнения документов в векторном представлении, рассмотрены в работе [11]. Оптимальное решение задачи ранжирования достигается путем применения системы, основанной на агентно-ориентированном подходе.

  Во многих случаях поиска в новой области, когда общий уровень пользователя недостаточно высок, желательно осуществлять фильтрацию выдаваемой информации по стилю текста так, чтобы начальное ознакомление с материалом происходило с использованием популярных и научно-популярных текстов.

  Для уменьшения объема рассматриваемых материалов следует также осуществить фильтрацию результатов поиска по типу источников. Так очевидно, что документы, расположенные на научных сайтах, на коммерческих, или на серверах СМИ будут существенно различаться по своему характеру.  

                    Структура работы поисковых  систем.

     Работа  поискового указателя происходит  в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гипетэссылки, которые на ней имеютте ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами.' Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.

  После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

      На третьем этапе происходит  обработка запроса клиента и  выдача ему результатов поиска  в виде списка гиперссылок.  Допустим, клиент хочет узнать, где  в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку. Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

  Все это  выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.

  Очень хорошо, если ключевые слова, использованные в  запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании.

  Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально готовят страницы так, чтобы поисковые системы давали им высокий рейтинг. Хорошая, грамотная работа Web-мастера способна значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поисковые системы и придать своим Web-страницам значимость, которой в них на самом деле нет. Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким шрифтом, либо применяют цвет текста, совпадающий с цветом фона. За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.

  Из поисковых  указателей в России сегодня действуют  три «кита» (есть и более мелкие системы, но мы останавливаться на них  не будем). Это «Рамблер» (www.rambler. ru), «Яндекс» (www.yandex. ru) и «Апорт2000» (www.aport. ru).

  Исторически наиболее популярной поисковой системой является «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web-страниц, он давно толком не обновлялся и выдает устаревшие результаты. Сегодня «Рамблер» -это популярный портал, лучшая в России классификационно-рейтинговая система (о том, что это такое, мы расскажем ниже) плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства, как мы покажем ниже, не вкладываются.

  Самый большой  указатель лежит в основе системы  «Яндекс» -примерно 27 миллионов Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы. По уровню актуальности «Яндекс» сегодня — безусловный лидер (рис. 7.3).

  Система «Апорт» выигрывает на третьем этапе: в момент представления информации клиенту. Она не стремится к созданию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представлены. 

                    Характеристика  поисковых систем. 

  Начиная поиск чего-либо в Internet и имея минимум  информации, а так же пытаясь огранить потери времени, для получения наиболее общей информации возможно обращение  к следующим  базам данных: 

                                            

                                                            Рисунок 1.

  Yahoo! –  самая известная поисковая машина. Её сайты разбиты по категориям  и ключевым словам. Она содержит  полезную информацию на своей  домашней странице. Может подключаться  к другим поисковым машинам

        Базы  данных: в ведении находится служба поиска Internet-ресурсов, новостей, карт, рекламных информаций, спортивная информация, бизнес, номера телефонов, персональные WWW-страницы, и email-адреса (отдельная  база данных).

        Содержание: Основная директория содержит: адреса (URLs) для Internet-ресурсов и краткое  описание для этих связей.

        Поиск: Все Yahoo страницы предлагают не только простое поисковое окно, но и опции  для этого поиска, а так же поиск Usenet или Email-адреса. Поиск может ограничиваться указанием определённого промежутка времени. Boolean операторы (и, или) и последовательный поиск также поддержаны. Отметим: если поиск в Yahoo! не привёл к положительному результату, то процесс поиска автоматически переходит на Alta Vista, которая продолжает поиск, и в случае положительных результатов автоматически возвращает найденную информацию в Yahoo!.

          Если Yahoo! не может установить  связь достаточно быстро с  Alta Vista, то в этом случае Yahoo! будет  обеспечивать страницу связи с набором инструментов поиска. После того как одна из этих связей выбирается, ключевые слова передаются к поисковой машине на ваше усмотрение.

        Результаты: Связи отображаются в соответствии с очерёдностью задаваемых слов последовательностью  поиска наряду с их описательным текстом и подчиненной иерархией.

        Адрес: http://www.yahoo.com/

        Частота Модернизации: ежедневно. 
 
 
 
 
 
 
 
 
 
 
 
 

                                       

                                                     Рисунок 2.

  Alta Vista поддерживает  поиск по ключевому набору слов и для определения языка конкретной страницы использует методы искусственного интеллекта. Пользователи могут настроить опции поиска и выбирать тип поиска – сложный или упрощенный, а также воспользоваться различными способами предоставления информации. В отличие от машин, которые индексируют только ключевые слова, она индексирует весь текст, что позволяет осуществлять полный поиск. Однако из - за этого пользователь может просто утонуть в информации.

        Базы  данных: Расположенные по всему миру WWW-страницы и Usenet News (новости).

        Содержание: 31 миллион WWW-страниц (на май 1997 г.) и  полный текст более чем 14,000 newsgroups обновленный в реальном масштабе времени.

        Поиск: Предлагает простой(simple (S)) поиск или (much more advanced (MMS)),т.е. более передовой, способ. S - поиск стоит в основном использовать для общих вопросов, MMS - поиск использует специфический поисковый синтаксис.

  Результаты: Предлагает три выбора результатов (но два дают тот же самый результат):

Информация о работе Классификация и будущее информационно-поисковых систем