Поисковые системы

Автор: Пользователь скрыл имя, 11 Мая 2012 в 20:30, реферат

Описание работы

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развитие глобальной информационной компьютерной сети. С появлением Интернета проблема поиска становилась более актуальной.

Содержание

Введение 3
Основные принципы построения Информационно-поисковых систем 4
Понятие информационно - поисковой системы 4
Процесс поиска 4
Информационный язык 6
Перевод 7
Дескриптор 8
Критерий соответствия 8
Индексирование 8
Заключение 10
4. Источники 11

Работа содержит 1 файл

реферат.doc

— 94.50 Кб (Скачать)
 

Санкт-Петербургский  Государственный университет 
информационных технологий, механики и оптики
 
 
 
 
 

Кафедра прикладной экономики и маркетинга 
 
 

Реферат на тему:

«Поисковые системы» 
 
 
 
 
 

                                               Выполнила:

                                                 Студентка группы 2070,

                                               Баннова Юлия 

                                               Принял:

                                               Петров  Вадим Юрьевич  
 
 
 
 
 
 

Санкт –  Петербург

2012 
 

      Содержание 

 

    1. Введение

      Современный этап развития цивилизации характеризуется  переходом наиболее развитой части  человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развитие глобальной информационной компьютерной сети. С появлением Интернета проблема поиска становилась более актуальной.

      В самом деле, если подумать то Интернет- это единая информационная среда, но с другой стороны это большое количество полезной информации, для поиска которой необходимо затратить много времени.

      Да  и не только Интернет стал толчком  для создания Информационно-поисковых  систем. Предприятия, заводы, на которых  существуют огромные базы данных, так  же нуждаются в Информационно-поисковых системах, но всё же в большей степени ИПС связаны с сетями.

      Люди  с давних пор стремились, как-то упростить процесс поиска. Например, библиотека – та же система, но вот только всё делается вручную, так же примером может послужить любая справочная служба. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

    1. Основные  принципы построения Информационно-поисковых  систем
      1. Понятие информационно - поисковой системы
 

      Информационно-поисковая система - совокупность информационно поисковых правил перевода с естественного языка на информационно - поисковый и обратного перевода, а также критерия соответствия, предназначенная для осуществления информационного поиска. В число составных частей конкретной информационно – поисковой системы (ИПС), кроме информационно-поискового языка, правил перевода и критерия соответствия, входят также средства ее технической реализации, массив текстов (документов), в котором осуществляется информационный поиск, и люди, непосредственно участвующие в этом поиске.

      1. Процесс поиска

      Информационный поиск - процесс отыскания в некотором множестве текстов (документов) всех таких, которые посвящены указанной в запросе теме (предмету) или содержат нужные потребителю факты, сведения. ИП осуществляется посредством информационно-поисковой системы и выполняется вручную либо с использованием средств механизации или автоматизации. Непременным участником ИП является человек. В зависимости от характера информации, которая содержится в выдаваемых информационно - поисковой системой (ИПС) текстах, ИП может быть документальным, в том числе библиографическим, и фактографическим. ИП нужно отличать от логической переработки информации, без которой невозможна непосредственная выдача человеку ответов на задаваемые им вопросы. При ИП отыскиваются — и могут быть найдены — такие и только такие факты или сведения, которые были введены в ИПС. Перед вводом в ИПС текста (документа) определяется его основное смысловое содержание (тема или предмет), которое затем переводится и записывается на одном из информационно-поисковых языков. Эта запись называется поисковым образом текста. Так же поступают и когда в ИПС вводят определённым образом записанные факты, сведения. Поступивший запрос также переводится на информационно-поисковый язык, образуя поисковое предписание. Поскольку поисковые образы текстов и поисковые предписания записаны на одном и том же языке, выражения на котором допускают только одно истолкование, то, возможно сравнивать их формально, не вникая в смысл. Для этого задаются определённые правила (критерии соответствия), устанавливающие, при какой степени формального совпадения поискового образа с поисковым предписанием текст следует считать отвечающим на информационный запрос и подлежащим выдаче. 

      Техническая эффективность ИП характеризуется  двумя относительными показателями — коэффициентом точности (отношением числа текстов, отвечающих на информационный запрос, к общему числу текстов в данной выдаче) и коэффициентом полноты (отношением числа текстов, отвечающих на информационный запрос, к общему числу таких текстов, содержащихся в данной ИПС). Необходимые значения этих показателей зависят от специфики информационных потребностей. Например, при поиске патентных описаний с целью проведения экспертизы патентной заявки на новизну необходима 100%-ная полнота выдачи; при поиске, ориентированном на обычного исследователя или инженера, очень хорошей считается точность выдачи около 80% , полнота — около 50%.

      

      Рис.1 Процесс поиска

      ИП  может быть двух типов — избирательное (или адресное) распространение информации и ретроспективный поиск. При избирательном распространении информации ИП производится по постоянным запросам некоторого числа потребителей (абонентов), осуществляется периодически (обычно один раз в неделю или в две недели) и выполняется лишь в массиве текстов, поступивших в ИПС за этот период времени. Между ИПС и потребителями (абонентами) устанавливается эффективно действующая обратная связь (абонент сообщает, в какой степени этот текст соответствует запросу и нужна ли ему копия полного текста, о степени соответствия этого текста его информационной потребности), которая позволяет уточнять потребности абонентов, своевременно реагировать на изменения этих потребностей и оптимизировать работу системы. При ретроспективном поиске ИПС отыскивает содержащие требуемую информацию тексты во всём накопленном массиве текстов по разовым запросам.

      1. Информационный  язык

      Информационно-поисковый язык - знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный информационно – поисковый язык (ИПЯ) состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации - как надлежит понимать эти слова и выражения.

      ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно - поисковая система.  

        В большинстве ИПЯ основной  словарный состав (лексика) задаётся  его перечислением и представляет  собой фрагмент лексики того  или иного естественного языка.  Отобранные из естественного  языка слова и словосочетания, в совокупности образующие основной  словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. В середине 20 в. в качестве ИПЯ широко применяются классификации библиотечно-библиографические и языки дескрипторного типа.

      1. Перевод

        Уже давно осталась позади  романтика создания ИПЯ, как  естественного языка. Если даже  пользователю предлагается вводить  запросы на естественном языке,  то это не значит, что система  будет осуществлять семантический  разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из этого списка удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом запрос типа:

      >Software that is used on Unix Platform

      будет преобразован в:

      >Unix AND Platform AND Software

      что будет означать примерно следующее: "Найди все документы, в которых  слова Unix, Platform и Software встречаются одновременно".

      Возможны  и варианты. Так в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза, и не будет разделяться на отдельные слова. Вообще говоря, и все три слова могут быть опознаны как одна ключевая фраза. Другой подход заключается в вычислении близости между запросом и документом. В этом случае, в соответствии с векторной моделью представления документов и запросов вычисляется мера близости. К настоящему времени известно около дюжины различных мер близости. Наиболее часто применяется cos угла между поисковым образом документа и запросом пользователя. Именно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

      Наиболее  продвинутым языком запросов является следующий: кроме обычного набора AND, OR, NOT, эта система позволяет использовать еще и NEAR. Последний оператор позволяет организовать контекстный поиск. Все документы в системе разбиты на поля, поэтому в запросе можно указать в какой части документа пользователь хочет увидеть ключевое слово (в ссылке, заголовке и т.п.). Можно также задать поле ранжирования выдачи и критерий близости документов запросу.

      1. Дескриптор

      Дескриптор (позднелат. descriptor, от лат. describо — описываю)  -  лексическая единица (слово, словосочетание) информационно-поискового языка, служащая для описания основного смыслового содержания документов. Дескрипторы служат также для формулировки информационных запросов при поиске документов в информационно - поисковой системе

      1. Критерий  соответствия

      Критерий соответствия - совокупность правил, по которым при информационном поиске определяется степень соответствия поискового образа документа поисковому предписанию и принимается решение о выдаче или невыдаче этого документа в ответ на информационный запрос. Наряду с информационно-поисковым языком критерий соответствия является одним из элементов информационно-поисковой системы.

      1. Индексирование

      Индексирование - процесс выражения главного предмета или темы текста какого-либо документа в терминах информационно-поискового языка. Применяется для облегчения поиска необходимого текста среди множества других. Проводится Индексирование (И) как целого документа, так и его части. Для И нередко используются заглавия текстов. При И опускаются сопутствующие предметы или темы. Это служит причиной того, что при поиске не найденными остаются тексты, для которых предмет или тема информационного запроса является не главной, а сопутствующей. Различают 2 основных типа И. — классификационное и координатное. При классификационном И, или классифицировании, тексты в зависимости от их содержания включаются в соответствующий класс (один или несколько), в котором собираются все тексты, имеющие в основном одинаковое смысловое содержание. Каждому такому тексту присваивается индекс этого класса, служащий далее его поисковым образом. При координатном И основное смысловое содержание текста выражается перечнем полнозначных слов, выбираемых либо из самого текста или его заглавия, либо из специального нормативного словаря. В первом случае такие лексические единицы называются ключевыми словами, а во втором — дескрипторами. Каждое ключевое слово или дескриптор обозначает класс, в который потенциально входят все тексты, где в выражения основного смыслового содержания входит это слово. Логическое произведение классов, которые обозначены всеми словами, выражающими в совокупности основное смысловое содержание текста, как бы образует некоторый сложный класс. Построенный таким способом сложный класс обозначается перечнем ключевых слов или дескрипторов, и этот перечень служит поисковым образом данного текста или выражением на информационно - поисковом языке смыслового содержания запроса. Таким образом, при координатном И смысловое содержание текста выражается как бы указанием его координат в некотором n-мерном смысловом пространстве. Разновидностью координатного И является пермутационное, или циклическое, И, которое основано на использовании ключевых слов заглавия текста и заключается в том, что все ключевые слова заглавия вместе с контекстом поочерёдно выводятся в поисковую колонку. В этой колонке ключевые слова даются в алфавитном порядке. На основе координатного И созданы и более сложные информационно-поисковые языки. Основное преимущество координатного И перед классификационным заключается в том, что координатное И не создаёт никаких затруднений при поиске текстов по любому, заранее не предусмотренному сочетанию признаков. Особым типом И следует считать раскрытие смыслового содержания текста через приводимую вместе с ним библиографию — имена авторов и библиографические описания их работ, на которые ссылается автор данного текста. Такое И служит основой для составления указателей цитированной литературы — весьма эффективного инструмента не только для поиска документов, но и для решения других задач (науковедческих, прогностических и т. д.).

Информация о работе Поисковые системы