Информационно-поисковые системы

Автор: Пользователь скрыл имя, 10 Февраля 2012 в 18:23, контрольная работа

Описание работы

ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Содержание

Информационно-поисковая система. Определение, главная задача, релевантность……………………………………………………………………
3
Поисковые машины…………………………………………………….. 4
Адреса наиболее популярных поисковых машин за рубежом и в России…………………………………………………………………………….
5
Каталожная система…………………………………………………….. 6
Адреса популярных каталогов…………………………………………. 7
Язык запросов…………………………………………………………… 8
Перевод…………………………………………………………………... 10
Основные характеристики поисковой системы……………………….. 11
Список использованных источников…………

Работа содержит 1 файл

КОНТРОЛЬНАЯ РАБОТА ИПС.doc

— 74.00 Кб (Скачать)

Мурманский  филиал

НОУ ВПО МОСКОВСКОЙ АКАДЕМИИ ПРЕДПРИНИМАТЕЛЬСТВА

при Правительстве Москвы 
 
 
 
 

   КОНТРОЛЬНАЯ РАБОТА

      

   Студента Деньгиной Анастасии Олеговны                                курса V 

   Специальности: Мировая экономика 
 

   Учебная дисциплина: Информационные системы в экономике 
 

   Тема  работы: Информационно-поисковые системы 
 
 

   Номер зачётной книжки: МВУ-09/119 
 
 
 
 
 
 
 
 
 

   Номер и дата регистрации работы в деканате: ___________________ 
 
 
 
 
 
 

   Мурманск

   2012

 

       Содержание 
 
 

       Информационно-поисковая  система. Определение, главная задача, релевантность……………………………………………………………………  
3
       Поисковые машины…………………………………………………….. 4
       Адреса наиболее популярных поисковых машин за рубежом  и в России…………………………………………………………………………….  
5
       Каталожная система…………………………………………………….. 6
       Адреса популярных каталогов…………………………………………. 7
       Язык запросов…………………………………………………………… 8
       Перевод…………………………………………………………………... 10
       Основные характеристики поисковой системы……………………….. 11
       Список использованных источников…………………………………... 15
 

 

    1. Информационно-поисковая система. Определение, главная задача, релевантность
 
 

       ИПС (информационно-поисковая система) - это система, обеспечивающая поиск  и отбор необходимых данных в  специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

       Главной задачей любой ИПС является поиск  информации релевантной информационным потребностям пользователя. Очень важно  в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

         Релевантность - это соответствие  результатов поиска сформулированному  запросу. 

       Виды  релевантности:

    • Содержательная релевантность  (соответствие документа информационному запросу, определяемое неформальным путем. Одним из методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину — то есть документ будет выдаваться раньше в результатах поиска по данному термину. Автором метода является Gerard Salton (в дальнейшем доработан Karen Sparck Jones))
    • Формальная релевантность (соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму)
    •  
    1. Поисковая машина 
       

       Поисковая машина - поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

       Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом.

       Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или  фразы, заключенной в кавычки. Индекс формируется и поддерживается в  актуальном состоянии роботами-индексировщиками.

       В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

       Что можно делать с полученными результатами? Если название и описание документа  соответствует вашим требованиям, можно немедленно перейти к его  первоисточнику по ссылке. Это удобнее  делать в новом окне, чтобы иметь  возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

 

    1. 1 Адреса наиболее популярных поисковых машин за рубежом и в России
 
 

       Зарубежные  поисковые машины:  

    • Google - www.google.com
    • Altavista - www.altavista.com
    • Excite - www.excite.com
    • HotBot - www.hotbot.com
    • Nothern Light - www.northernlight.com
    • Go (Infoseek) - www.go.com (infoseek.com)
    • Fast - www.alltheweb.com
 

       Российские  поисковые машины:  

    • Яndex - www.yandex.ru (или www.ya.ru)
    • Google - www.google.ru
    • Рэмблер - www.rambler.ru
    • Апорт - www.aport.ru
    • Mail - www.mail.ru
 

 

    1. Каталожная  система 
 
 

       Каталог- поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

       Поиск в каталоге очень удобен и проводится посредством последовательного  уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

       Результат поиска в каталоге представляется в  виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.  

 

        3.1 Адреса популярных  каталогов  
 

       Зарубежные  каталоги:  

    • Yahoo - www.yahoo.com
    • Magellan - www.mckinley.com
 

       Российские  каталоги:  

    • @Rus - www.aport.ru
    • Weblist - www.weblist.ru
    • Улитка - www.ulitka.ru
 

 

    1. Язык  запросов
 
 

       Язык  запросов — это искусственный  язык, на котором делаются запросы  к базам данных и другим информационным системам, особенно к информационно-поисковым системам.

       Язык, на котором формулируются запросы  к поисковым системам называется языком поисковых запросов или информационно-поисковым  языком.

       В различных поисковых системах язык запросов может различаться, однако обычно он является некоторым подобием языка регулярных выражений с дополнениями, связанными со спецификой работы той или иной поисковой системы. Знание и правильное применение языка запросов конкретной поисковой машины улучшает и упрощает пользователю процесс поиска информации.

       Язык  поисковых запросов состоит из логических операторов, префиксов обязательности, возможности учета расстояния между  словами, морфологии языка, регистра слов, расширенных операторов, возможностей расширенного поиска, уточнения поиска.

       Информационно-поисковый  язык (ИПЯ) - знаковая система, предназначенная  для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также  для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный информационно – поисковый язык (ИПЯ) состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации - как надлежит понимать эти слова и выражения.

       ИПЯ должен располагать лексико-грамматическими  средствами, необходимыми для выражения  основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно - поисковая система.

       В большинстве ИПЯ основной словарный  состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. В середине 20 в. в качестве ИПЯ широко применяются классификации библиотечно-библиографические и языки дескрипторного типа.  

 

    1. Перевод
 
 

       Информационно-поисковый  язык  позволяет сформулировать запрос к системе в простой и наглядной форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из которых удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:

    • Software that is used on Unix Platform
    • будет преобразован в:
    • Unix AND Platform AND Software

       что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно".

       Возможны  и варианты. Так, в большинстве  систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет  разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Информация о работе Информационно-поисковые системы