Классификация и будущее информационно-поисковых систем

Автор: Пользователь скрыл имя, 10 Марта 2011 в 13:07, реферат

Описание работы

В данном реферате рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. Представлен материал по применяемым в настоящее время информационно – поисковым каталогом полнотекстовыми и гипертекстовым поисковым системам.

Содержание

Введение ………………………………………………………………...…3
Раздел 1. Информационные системы…………………………………….4
1.1. Понятие информационных систем……………………..……………4
1.2. Структура информационных систем……………………………...…4
1.3.Классификация информационных систем…………………………...5
Раздел 2.Информационно поисковые системы……………………….…7
2.1. Исторические предпосылки развития поисковых систем…….....…7
Раздел 3.Понятие поисковых систем……………………………….........9
3.1.Особенности поисковых систем…………………………………..…9
* структура сети………………………………………………......11
* структура работы поисковых систем…………………….........13
3.2.Характеристика поисковых систем……………………………….…14
3.3.Проблемы и возможности поисковых систем…………………....…20
Заключение……………………………………………………………..….21
Список литературы………………………………………………………..22

Работа содержит 1 файл

Інформатика реф.doc

— 136.00 Кб (Скачать)

         1) "Стандартные"("Standard") - результаты, полученные машиной в виде списка параграфов, резюмируемые ей, с наличием URL - адреса, размером файла и последней датой модернизации. Результаты возвращаются как десять пунктов на экране,

         2) "Компактный"("Compact") помещают  каждый пункт в одной строке с последней датой модернизации картотеки,

        3) "Детальный"("Detailed"), который  является таким же самым, как  и "Стандартный".

        Адрес: http://altavista.digital.com

        Частота модернизации: Постоянно WWW-роботом. 
 

  

                                                  Рисунок 3.

  Для анализа  информации Excite использует поисковую  технологию Intelligent Concept Extraction, что позволяет делать запросы по образцу. Это самая популярная поисковая система в Америке. Для каждой найденной страницы она оценивает степень соответствия запросу.

        Базы  данных: WWW-страницы по всему миру, новости, карты, "yellow pages" ("желтые страницы"), свободно распространяемое программное  обеспечение, основные цитаты, программы  телевидения, погоду, E - mail адреса, рейсы авиалиний.

        Содержание: 50 миллионов WWW-страниц и больше чем  двухнедельный запас Usenet новостей.

        Поиск: Предлагает только S - поиск, который  поддерживает некоторые опции MMS - поиска.

        TS - поиск: используйте плюс (+) чтобы  определить, что все документы имеют данное слово, или используют минус (-) что бы уточнить, что ни один из документов не имеет данного слова. Возможно так же  поддержка вoolean-операторами.

  Вы можете использовать "AND", "OR" and "AND NOT"(И, ИЛИ и. И НЕ) операторы  и круглые скобки для группировки. Например: (digital or virtual or electronic) AND library.

  (цифровой  или виртуальный или электронный) И библиотека.

  Результаты: Результаты показаны с названием  документа, разряд уместности в процентах, URL - адрес, резюме программного обеспечением документа, и опция, чтобы восстановить "More Like This"(" Скорее Этот "), которая позволяет использовать документ как ваш вопрос.

        Адрес: http://www.excite.com/

        Частота Модернизации: Постоянно - WWW-роботом. 
 

                       

                                                       Рисунок 4.

  Infoseek самая  популярная поисковая машина  в компьютерной индустрии. В  мае 1996 она была признана как  самая достоверно предоставляющая  информацию машина. Привлекательность  машины в том, что после отсеивания информации можно проверить найденную информацию ещё раз.

        Базы  данных: расположенные по всему миру WWW-страницы, новости, запасает цитаты, карты, желтые страницы("yellow pages"), e mail адреса, и т.д.

        Содержание: Главный база данных: 50 миллионов URL-адресов. (на сентябрь 1996 г.)

        Поиск: предлагает только простой S - поиск, но ключевые слова поиска могут быть ограничены специфическими полями (типа в пределах заголовков документа), поиск  с использованием возможностей либо с исключением определённого слова (данному слову предшествует минус"-") или с включением требуемого слова (данному слову предшествует " + "). Для дополнительной информации относительно выбора поиска, используется. Infoseek-Помощь(Infoseek Help).

        Результаты: Включает название документа, размер картотеки, URL, краткое резюме, извлеченное из документа, и разряд уместности в процентах.

        Адрес: http://www.infoseek.com/

        Частота Модернизации: Постоянно WWW-роботом.

        Дополнительная  информация: в случае большого количества информации см. http://info.infoseek.com/.  
 
 
 
 
 
 
 

     На  данный момент появился очень  интересный и удобный проект :

                        

                                                   Рисунок 5.

  Дата рождения проекта Nigma.ru - 12 апреля 2005 года. Примерно за год до этой знаменательной даты родилась идея создания поисковой системы с новым методом обработки и анализа полученных данных - методом кластеризации.

  Создатель проекта - Виктор Лавренко - ранее работавший в компании Mail.ru, являющейся признанным лидером российского Интернета и с успехом прошел путь от технического директора до вице-президента компании по стратегии и финансам. В середине 2004 года Виктор обратился с предложением о совместной работе над созданием поисковой системы к студенту 5-го курса факультета вычислительной математики и кибернетики МГУ (а ныне аспиранту и преподавателю) Владимиру Чернышову. Первые полгода они занимались "самообразованием", знакомились с технической литературой и публикациями.

  Активная  работа по созданию принципиально новой поисковой системы началась в начале 2005 года - и продолжается по сей день. Название - Nigma (один из трех родов пауков семейства Dictunidae) - появилось очень просто: во-первых, оно короткое и запоминающееся, во-вторых,  нужна была аналогия с Сетью, Всемирной Паутиной - то есть, Интернетом. На момент появления Nigma.ru в проекте участвовало 3 человека. Сегодня работает уже 15 человек и они планируют расширять штат.

  Многие  поисковые системы основаны на хорошо известных методах и алгоритмах, разработанных еще до появления Интернет. Общая задача информационного поиска в Интернет состоит в том, чтобы найти документы, соответствующие информационной потребности пользователя. Еще десять лет назад проблем с поиском необходимой информации у пользователя Интернет не возникало. Однако, с течением времени ситуация изменилась и теперь мы даже не всегда понимаем, какой необходимо сделать запрос для поиска нужной информации. Следовательно, необходимо изменить постановку задачи поиска и разработать новые методы обработки полученных данных с целью сужения области поиска.

  Одним из методов, позволяющих пользователю найти нужную информацию в Интернете, является кластеризация полученных документов. Системы, обеспечивающие кластеризацию  документов на английском языке, были реализованы западными специалистами несколько лет назад. Подобный алгоритм работает и для поиска документов на русском языке. Преимущество интеллектуальной поисковой системы Nigma.ru состоит в том, что ее алгоритм ищет документы с учетом русской орфографии, объединяет результаты, полученные с разных поисковых систем, использует запросы пользователей для улучшения качества кластеризации и счетчики для сортировки результатов поиска, а также корректирует возможные ошибки. 

  ПРОБЛЕМЫ  И ВОЗМОЖНОСТИ ПОИСКОВЫХ СИСТЕМ.

  Работа  многих поисковых машин считается  вполне успешной. Однако все современные  поисковые системы страдают некоторыми серьёзными недостатками:

    1. поиск по ключевым словам даёт слишком много ссылок и многие из них бесполезны.
    2. огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.
    3. методы индексирования баз данных, как правило, не связаны с информационным содержанием.
    4. часто выдаются ссылки на информацию, которой в Интернете уже давно нет.
    5. машины ещё не столь совершены, чтобы понимать естественный язык

  в последнее  время потребности в интеллектуальной помощи быстро растут. Это привело  к появлению интеллектуальных агентов.

        Обычно  интеллектуальные агенты являются основной частью поисковой машины для поиска используется искусственный интеллект. Пользователь учит агента, а затем он выходит в Интернет для поиска.

  Интеллектуальные  агенты выполняют инструкции от имени  пользователя, имеют некоторую самостоятельность. После поиска они оповещают пользователя о результатах. Агенты учатся в результате своей деятельности.

        Интеллектуальность  – обучение на основе обратной связи  по примерам ошибкам и по средствам  взаимодействия с другими агентами.

        Простота  использования – можно тренировать  агента используя естественный язык.

  Индивидуальный  подход – адаптация к предпочтениям  пользователей.

        Интегрированность – непрерывное обучение применение уже имеющих знаний к новым  ситуациям.

        Автономность  – ощущение окружающей среды, и анализ выводов. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

                            ЗАКЛЮЧЕНИЕ

  Рассмотренные мною поисковые машины далеки от совершенства.  Считается, что идеальная поисковая  машина должна отвечать следующим требованиям:

      1. простота в использовании
      2. чётко организованный и обновляемый индекс.
      3. быстрый поиск в базе данных и быстрое реагирование.
      4. надёжность и точность результатов поиска.

  Масштабы  информационных ресурсов и  их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты – новое  направление лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Internet  продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.

  Разработка  и их усовершенствование стоит на месте. Но сейчас создаются системы  нового поколения. В 2004 году родилась идея создания поисковой системы с новым методом обработки и анализа полученных данных - методом кластеризации.

  Многие  поисковые системы основаны на хорошо известных методах и алгоритмах, разработанных еще до появления  Интернет. Общая задача информационного поиска в Интернет состоит в том, чтобы найти документы, соответствующие информационной потребности пользователя. Еще десять лет назад проблем с поиском необходимой информации у пользователя Интернет не возникало. Однако, с течением времени ситуация изменилась и теперь мы даже не всегда понимаем, какой необходимо сделать запрос для поиска нужной информации. Следовательно, необходимо изменить постановку задачи поиска и разработать новые методы обработки полученных данных с целью сужения области поиска.

  Список  литературы:

        1. Э.А. Якубайтис «Информатика-электроника-сети». М., «Финансы и статистика», 1989.
        2. . А. В. Гаврилов "Локальные сети ЭВМ", Москва, Изд-во "Мир", 1990.
        3. Н.А. Гайдамакин «Автоматизированные информационные системы, базы и банки данных», М.: «Гелиос», 2002.

         4.        Поисковая  система Нигма: http://www.nigma.ru

         5.       www.searchengines.ru/articles/005913.html - 27k

Информация о работе Классификация и будущее информационно-поисковых систем