Автор: Пользователь скрыл имя, 10 Марта 2011 в 13:07, реферат
В данном реферате рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. Представлен материал по применяемым в настоящее время информационно – поисковым каталогом полнотекстовыми и гипертекстовым поисковым системам.
Введение ………………………………………………………………...…3
Раздел 1. Информационные системы…………………………………….4
1.1. Понятие информационных систем……………………..……………4
1.2. Структура информационных систем……………………………...…4
1.3.Классификация информационных систем…………………………...5
Раздел 2.Информационно поисковые системы……………………….…7
2.1. Исторические предпосылки развития поисковых систем…….....…7
Раздел 3.Понятие поисковых систем……………………………….........9
3.1.Особенности поисковых систем…………………………………..…9
* структура сети………………………………………………......11
* структура работы поисковых систем…………………….........13
3.2.Характеристика поисковых систем……………………………….…14
3.3.Проблемы и возможности поисковых систем…………………....…20
Заключение……………………………………………………………..….21
Список литературы………………………………………………………..22
1) "Стандартные"("Standard") - результаты, полученные машиной в виде списка параграфов, резюмируемые ей, с наличием URL - адреса, размером файла и последней датой модернизации. Результаты возвращаются как десять пунктов на экране,
2) "Компактный"("Compact") помещают каждый пункт в одной строке с последней датой модернизации картотеки,
3) "Детальный"("Detailed"), который является таким же самым, как и "Стандартный".
Адрес: http://altavista.digital.com
Частота
модернизации: Постоянно WWW-роботом.
Для анализа информации Excite использует поисковую технологию Intelligent Concept Extraction, что позволяет делать запросы по образцу. Это самая популярная поисковая система в Америке. Для каждой найденной страницы она оценивает степень соответствия запросу.
Базы данных: WWW-страницы по всему миру, новости, карты, "yellow pages" ("желтые страницы"), свободно распространяемое программное обеспечение, основные цитаты, программы телевидения, погоду, E - mail адреса, рейсы авиалиний.
Содержание: 50 миллионов WWW-страниц и больше чем двухнедельный запас Usenet новостей.
Поиск: Предлагает только S - поиск, который поддерживает некоторые опции MMS - поиска.
TS - поиск: используйте плюс (+) чтобы определить, что все документы имеют данное слово, или используют минус (-) что бы уточнить, что ни один из документов не имеет данного слова. Возможно так же поддержка вoolean-операторами.
Вы можете использовать "AND", "OR" and "AND NOT"(И, ИЛИ и. И НЕ) операторы и круглые скобки для группировки. Например: (digital or virtual or electronic) AND library.
(цифровой или виртуальный или электронный) И библиотека.
Результаты: Результаты показаны с названием документа, разряд уместности в процентах, URL - адрес, резюме программного обеспечением документа, и опция, чтобы восстановить "More Like This"(" Скорее Этот "), которая позволяет использовать документ как ваш вопрос.
Адрес: http://www.excite.com/
Частота
Модернизации: Постоянно - WWW-роботом.
Infoseek самая
популярная поисковая машина
в компьютерной индустрии. В
мае 1996 она была признана как
самая достоверно
Базы данных: расположенные по всему миру WWW-страницы, новости, запасает цитаты, карты, желтые страницы("yellow pages"), e mail адреса, и т.д.
Содержание: Главный база данных: 50 миллионов URL-адресов. (на сентябрь 1996 г.)
Поиск: предлагает только простой S - поиск, но ключевые слова поиска могут быть ограничены специфическими полями (типа в пределах заголовков документа), поиск с использованием возможностей либо с исключением определённого слова (данному слову предшествует минус"-") или с включением требуемого слова (данному слову предшествует " + "). Для дополнительной информации относительно выбора поиска, используется. Infoseek-Помощь(Infoseek Help).
Результаты: Включает название документа, размер картотеки, URL, краткое резюме, извлеченное из документа, и разряд уместности в процентах.
Адрес: http://www.infoseek.com/
Частота Модернизации: Постоянно WWW-роботом.
Дополнительная
информация: в случае большого количества
информации см. http://info.infoseek.com/.
На данный момент появился очень интересный и удобный проект :
Дата рождения проекта Nigma.ru - 12 апреля 2005 года. Примерно за год до этой знаменательной даты родилась идея создания поисковой системы с новым методом обработки и анализа полученных данных - методом кластеризации.
Создатель проекта - Виктор Лавренко - ранее работавший в компании Mail.ru, являющейся признанным лидером российского Интернета и с успехом прошел путь от технического директора до вице-президента компании по стратегии и финансам. В середине 2004 года Виктор обратился с предложением о совместной работе над созданием поисковой системы к студенту 5-го курса факультета вычислительной математики и кибернетики МГУ (а ныне аспиранту и преподавателю) Владимиру Чернышову. Первые полгода они занимались "самообразованием", знакомились с технической литературой и публикациями.
Активная работа по созданию принципиально новой поисковой системы началась в начале 2005 года - и продолжается по сей день. Название - Nigma (один из трех родов пауков семейства Dictunidae) - появилось очень просто: во-первых, оно короткое и запоминающееся, во-вторых, нужна была аналогия с Сетью, Всемирной Паутиной - то есть, Интернетом. На момент появления Nigma.ru в проекте участвовало 3 человека. Сегодня работает уже 15 человек и они планируют расширять штат.
Многие
поисковые системы основаны на хорошо
известных методах и
Одним из
методов, позволяющих пользователю
найти нужную информацию в Интернете,
является кластеризация полученных
документов. Системы, обеспечивающие кластеризацию
документов на английском языке, были
реализованы западными специалистами
несколько лет назад. Подобный алгоритм
работает и для поиска документов на русском
языке. Преимущество интеллектуальной
поисковой системы Nigma.ru состоит в том,
что ее алгоритм ищет документы с учетом
русской орфографии, объединяет результаты,
полученные с разных поисковых систем,
использует запросы пользователей для
улучшения качества кластеризации и счетчики
для сортировки результатов поиска, а
также корректирует возможные ошибки.
ПРОБЛЕМЫ
И ВОЗМОЖНОСТИ ПОИСКОВЫХ
Работа многих поисковых машин считается вполне успешной. Однако все современные поисковые системы страдают некоторыми серьёзными недостатками:
в последнее
время потребности в
Обычно интеллектуальные агенты являются основной частью поисковой машины для поиска используется искусственный интеллект. Пользователь учит агента, а затем он выходит в Интернет для поиска.
Интеллектуальные
агенты выполняют инструкции от имени
пользователя, имеют некоторую
Интеллектуальность – обучение на основе обратной связи по примерам ошибкам и по средствам взаимодействия с другими агентами.
Простота
использования – можно
Индивидуальный подход – адаптация к предпочтениям пользователей.
Интегрированность – непрерывное обучение применение уже имеющих знаний к новым ситуациям.
Автономность
– ощущение окружающей среды, и анализ
выводов.
ЗА
Рассмотренные мною поисковые машины далеки от совершенства. Считается, что идеальная поисковая машина должна отвечать следующим требованиям:
Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты – новое направление лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.
Разработка и их усовершенствование стоит на месте. Но сейчас создаются системы нового поколения. В 2004 году родилась идея создания поисковой системы с новым методом обработки и анализа полученных данных - методом кластеризации.
Многие
поисковые системы основаны на хорошо
известных методах и
Список литературы:
4. Поисковая система Нигма: http://www.nigma.ru
5. www.searchengines.ru/articles/
Информация о работе Классификация и будущее информационно-поисковых систем