Автор: Пользователь скрыл имя, 11 Апреля 2011 в 21:34, контрольная работа
В данной контрольной работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. Представлен материал по применяемым в настоящее время информационно – поисковым каталогом полнотекстовыми и гипертекстовым поисковым системам.
Введение
1. Понятие автоматизированных информационных поисковых систем
1.1. Особенности автоматизированных поисковых систем
1.2. Структура сети
2. Структура работы автоматизированных поисковых систем
3. Характеристика автоматизированных поисковых систем
4. Проблемы и возможности автоматизированных поисковых
систем
Заключение
Список литературы
Строго говоря, все
поисковые системы черпают
Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста — они считаются самыми важными при индексации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.
Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании.
Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально готовят страницы так, чтобы поисковые системы давали им высокий рейтинг. Хорошая, грамотная работа Web-мастера способна значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поисковые системы и придать своим Web-страницам значимость, которой в них на самом деле нет. Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким шрифтом, либо применяют цвет текста, совпадающий с цветом фона. За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.
Из поисковых указателей в России сегодня действуют три «кита» (есть и более мелкие системы, но мы останавливаться на них не будем). Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Апорт2000» (www.aport.ru).
Исторически наиболее популярной поисковой системой является «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web-страниц, он давно толком не обновлялся и выдает устаревшие результаты. Сегодня «Рамблер» -это популярный портал, лучшая в России классификационно-рейтинговая система плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства, как мы покажем ниже, не вкладываются.
Самый большой указатель лежит в основе системы «Яндекс» -примерно 27 миллионов Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы. По уровню актуальности «Яндекс» сегодня — безусловный лидер.
Система «Апорт» выигрывает на третьем этапе: в момент представления информации клиенту. Она не стремится к созданию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представлены.
3. Характеристика автоматизированных поисковых систем
Начиная поиск чего-либо в Internet и, имея минимум информации, а так же пытаясь ограничить потери времени, для получения наиболее общей информации возможно обращение к следующей базе данных.
База данных: предмет ведет к Межсетевым ресурсам, построенным библиотекарями.
Содержание: Свыше 2,500 связей с Internet ресурсами, кратко аннотируемыми, с указанными предметными заголовками.
Поиск: Поиски могут быть ограничены названием ресурса, описанием его, или с указанными предметными заголовками.
Результаты: Результаты показаны в алфавитном порядке названиями ресурса.
Адрес:
http://sunsite.berkeley.edu/
Частота Модернизации: ежедневно
Например,
1.
Yahoo!
Yahoo! –
самая известная поисковая
Базы данных: в ведении находится служба поиска Internet-ресурсов, новостей, карт, рекламных информаций, спортивная информация, бизнес, номера телефонов, персональные WWW-страницы, и e-mail-адреса (отдельная база данных).
Содержание: Основная директория содержит: адреса (URLs) для Internet-ресурсов и краткое описание для этих связей.
Поиск:
Все Yahoo страницы предлагают не только
простое поисковое окно, но и опции
для этого поиска, а так же поиск
Usenet или Email-адреса. Поиск может ограничиваться
указанием определённого
Если Yahoo! не может установить связь достаточно быстро с Alta Vista, то в этом случае Yahoo! будет обеспечивать страницу связи с набором инструментов поиска. После того как одна из этих связей выбирается, ключевые слова передаются к поисковой машине на ваше усмотрение.
Средством, облегчающим поиск, является наличие “tip search”(TS) - поиск с помощью “намека”: Yahoo! Является подчиненным справочником, что означает, что система не имеет так много страниц, как поисковые машины, однако задание наиболее общих ключевых слов позволит найти необходимую тему на странице высокого уровня (первая страница, которая возникает перед пользователем при посещении сайта) для организации или компании.
Результаты: Связи отображаются в соответствии с очерёдностью задаваемых слов последовательностью поиска наряду с их описательным текстом и подчиненной иерархией.
Адрес: http://www.yahoo.com/
Частота Модернизации: ежедневно
2.
Alta Vista
Alta Vista поддерживает поиск по ключевому набору слов и для определения языка конкретной страницы использует методы искусственного интеллекта. Пользователи могут настроить опции поиска и выбирать тип поиска – сложный или упрощенный, а также воспользоваться различными способами предоставления информации. В отличие от машин, которые индексируют только ключевые слова, она индексирует весь текст, что позволяет осуществлять полный поиск. Однако из - за этого пользователь может просто утонуть в информации.
Базы данных: Расположенные по всему миру WWW-страницы и Usenet News (новости).
Содержание: 31 миллион WWW-страниц (на май 1997 г.) и полный текст более чем 14,000 newsgroups обновленный в реальном масштабе времени.
Поиск: Предлагает простой(simple (S)) поиск или (much more advanced (MMS)),т.е. более передовой, способ. S - поиск стоит в основном использовать для общих вопросов, MMS - поиск использует специфический поисковый синтаксис. Для облегчения выполнения процедуры имеется подсказка(Simple Search Help). MMS - поиск, используя булинь(boolean), т.е. с помощью ключевых союзов, используя (and, or, not - (и, или, не)) и простую смежность (near - (около)) позволяет употреблять несколько слов, чередование слов, словосочетание в качестве ключевых для проведения поиска.
TS - поиск: Введением ключа типа: " Ваша Фраза " как первое направление поиска, который будет ограничивать число найденных WWW - документов с заголовками типа " Ваша Фраза ".
Результаты: Предлагает три выбора результатов (но два дают тот же самый результат):
1) "Стандартные"("Standard") - результаты, полученные машиной в виде списка параграфов, резюмируемые ей, с наличием URL - адреса, размером файла и последней датой модернизации. Результаты возвращаются как десять пунктов на экране,
2) "Компактный"("Compact") помещают каждый пункт в одной строке с последней датой модернизации картотеки,
3) "Детальный"("Detailed"), который является таким же самым, как и "Стандартный".
Адрес: http://altavista.digital.com
Частота модернизации: Постоянно WWW-роботом.
4. Проблемы и возможности автоматизированных поисковых систем
Работа многих поисковых машин считается вполне успешной. Однако все современные поисковые системы страдают некоторыми серьёзными недостатками:
в последнее
время потребности в
Преимущества:
- Обычно интеллектуальные агенты являются основной частью поисковой машины. Для поиска используется искусственный интеллект. Пользователь учит агента, а затем он выходит в Интернет для поиска.
- Интеллектуальные агенты выполняют инструкции от имени пользователя, имеют некоторую самостоятельность. После поиска они оповещают пользователя о результатах. Агенты учатся в результате своей деятельности.
- Интеллектуальность – обучение на основе обратной связи по примерам ошибкам и по средствам взаимодействия с другими агентами.
- Простота использования – можно тренировать агента используя естественный язык.
- Индивидуальный подход – адаптация к предпочтениям пользователей.
- Интегрированность – непрерывное обучение применение уже имеющих знаний к новым ситуациям.
- Автономность – ощущение окружающей среды, и анализ выводов.
ЗАКЛЮЧЕНИЕ
Рассмотренные мною автоматизированные поисковые машины далеки от совершенства. Считается, что идеальная поисковая машина должна отвечать следующим требованиям:
Информация о работе Автоматизированные информационно поисковые системы