Организация профессионального поиска в сети Интернет

Автор: Пользователь скрыл имя, 10 Октября 2011 в 02:40, контрольная работа

Описание работы

Проблема поиска во Всемирной паутине очень сложная, так как информация разбросана по миллионам веб-серверов, которые находятся во всех концах земного шара. Тем не менее, в настоящее время существуют системы, обеспечивающие пользователя средствами достаточно быстрого поиска в Паутине нужной ему информации. Для поиска информации на веб-серверах разработано несколько десятков различных поисковых систем, обладающих разными возможностями по заданию образцов поиска, созданию запросов, а также разными множествами просматриваемых узлов и страниц.

Содержание

Введение……………………………………………………………………...…3

1. Типы поисковых систем…………………………………………………….4

1.1. Поисковые каталоги………………………………………………….....-

1.2. Поисковые машины…………………………………………………….5

2.Принцип работы поисковых машин…………………………………….....7

2.1.Google…………………………………………………………………….8

2.2.Rambler……………………………………………..……………………11

3. Советы по формированию запросов………………………….……….....17

Заключение………………………………………………………………….....19

Список используемой литературы...............................................................

Работа содержит 1 файл

Курсовая по информатике.doc

— 122.00 Кб (Скачать)

  По умолчанию считается, что все ключевые слова запроса связаны логической операцией И(+), то есть все ключевые слова должны присутствовать на веб-странице одновременно. Это не значит, что слова обязаны располагаться подряд и в том порядке, в котором они перечислены в запросе. Важен факт наличия слова в любом месте веб-страницы. И если все указанные в запросе ключевые слова где-нибудь, в каком угодно порядке обнаружатся на веб-странице, она будет считаться соответствующей запросу.

  Поисковая машина Google поддерживает логическую операцию ИЛИ. Эта операция в запросе обозначается словом OR. Например, для поиска страниц, которые должны содержать либо слово фонд, либо слово общество, следует составить такой запрос: фонд OR общество. В результате будут отобраны веб-страницы, которые содержат либо слово фонд, либо слово общество, либо оба слова вместе.

  Чтобы отобрать документы, в которых отсутствует какое-либо ключевое слово, перед ним нужно поставить знак «минус». Если, например, требуется туристическое описание Парижа, а не предложения многочисленных туристических агентств, можно сформулировать запрос следующим образом: путеводитель Париж -агентство -турист. Обратите внимание на правила записи знаков «+» и «-» в запросе. Эти знаки надо писать через пробел от предыдущего и слитно с последующим словом, например: рак -гороскоп. Если написать рак-гороскоп или рак - гороскоп, знак «-» будет проигнорирован.

  Словосочетания, которые должны находиться в отыскиваемых документах, необходимо заключать в кавычки. Например, по запросу «красная шапочка» будут найдены документы именно с этой фразой, в которой эти слова идут строго подряд и в указанной грамматической форме. Документ, содержащий предложение «а шапочка у нее была красная», найден не будет.

  Google имеет в своем арсенале множество  опций для максимальной конкретизации запроса. Все они доступны через меню Advanced Search "Расширенный поиск". Помимо уже описанных возможностей, добавляются фильтры, ограничивающие язык документа, его формат (к примеру, "только документы в PDF"), время опубликования ("последние три месяца"), место термина в самом документе ("в заголовке страницы") или расположение страницы в определенном домене или даже сайте.

  Выдаваемые  в результате поиска ссылки на документы, помимо традиционных сведений о заглавии документа, контексте искомых слов и данных о размере, содержат функцию Cached "Сохранено", позволяющую полностью восстановить весь документ, если по каким-либо причинам сайт, на котором он расположен, недоступен. Еще одна функция Similar pages "Похожие страницы" позволяет получить перечень страниц, содержание которых схоже с указанным источником. Эта функция, впрочем, пока выполнена без особого успеха.

  Помимо  поиска текстовых материалов, Google обладает лучшими на сегодня возможностями поиска иллюстраций с помощью режима "Поиск изображений" (Images, "Картинки"). В его базе данных учтено более 880 тысяч иллюстраций, разыскание которых ведется аналогично поиску текстовых документов с возможностью ограничения определенным размером, форматом или цветностью графических файлов - все через опцию "Расширенный поиск изображений". 

  2.2.Rambler

  Поисковая система Рамблер понимает и различает слова русского, английского и украинского языков. По умолчанию в Рамблере результаты ранжируются по степени соответствия запросу и группируются по сайтам.

  Полнота поиска в большой мере зависит  от работы системы сбора и обработки информации. В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой. В Рамблере масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин.

  Точность - одна из основных характеристик поисковой машины, которая определяется как степень соответствия найденных документов запросу пользователя. Например, если по запросу "Красная площадь" находится 150 документов, в 70 из них содержится словосочетание "Красная площадь", а в остальных просто присутствуют эти слова ("красная баба кричала на всю площадь"), то точность поиска считается равной 70/150 (~0,5). Чем точнее поиск, тем быстрее пользователь находит нужные ему документы, тем меньше "мусора" среди них встречается, тем реже найденные документы не соответствуют запросу.

  Повышение точности в поисковой машине Рамблер  достигается за счет использования  различных технологий на всех этапах обработки и поиска информации. Одним из наиболее интересных процессов является распознавание грамматических омонимов. Омонимы - это слова, которые имеют одинаковое написание, но различный смысл. Различают лексические и грамматические омонимы. Лексические омонимы относятся к одной части речи, как, например, существительное "бор": хвойный лес, стальное сверло и химический элемент. Грамматические омонимы относятся к разным частям речи, поэтому по написанию у них обычно совпадают только отдельные формы. Примерами грамматических омонимов могут служить слова "печь" - существительное русская "печь" и глагол "печь" пирожки; "рядовой" - прилагательное "рядовой" сотрудник и существительное "рядовой" Иванов.

  Омонимы не только увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), но и отрицательно сказываются на точности поиска. Если пользователь ищет слово "данные", ему неинтересно получить в найденном все документы, которые содержат слово "дать". Для того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений. Например, если рядом со словом "печь" стоит существительное ("пирожки", "картошка"), то с высокой вероятностью "печь" в данном контексте является глаголом. На сегодняшний день анализатор способен распознавать значения только грамматических омонимов.

  Синтаксический  анализ позволяет также с определенной вероятностью распознавать некоторые  имена собственные. Например, если в  тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет). Данные о таких конструкциях учитываются при индексации и обработке запроса.

  Скорость  поиска тесно связана с его  устойчивостью к нагрузкам. На сегодняшний день в рабочие часы к поисковой машине Rambler приходит около 60 запросов в секунду.

  Поисковый запрос может состоять из одного или  нескольких слов, в нем могут присутствовать знаки препинания. Составлять простые  запросы можно и не вдаваясь в  тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга). Знание и правильное применение языка запросов поисковой машины поможет сделать поиск на Рамблере быстрым и эффективным.

  В общем случае, регистр написания  поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.

  Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.

  Два запроса, соединенные оператором AND (сокращенное обозначение &) (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу собака AND кошка найдутся только те документы, которые содержат и слово собака, и слово кошка.

  Сложному запросу, состоящему из двух запросов, соединенных оператором OR (| ) (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу собака OR кошка найдутся документы, в которых есть хотя бы одно из слов собака или кошка (либо оба эти слова вместе).

  Оператор NOT (!) (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие  левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу собака NOT кошка будут все документы, в которых есть слово собака и нет слова кошка.

Если  оператор явно не указан, используется оператор по умолчанию AND: находятся  только документы, содержащие все слова  запроса. Так, запрос информация технологии кредит будет истолкован как информация AND технологии AND кредит. На странице Расширенного поиска оператор по умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно).

  Запрос  из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.

  Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.

  Таким образом, двойные кавычки можно  использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу самолет «заправился» посадка удовлетворяет документ, содержащий текст самолет совершил посадку и заправился, и не удовлетворяет документ, содержащий самолет совершил посадку, чтобы заправиться.

  При построении запросов иногда возникает  необходимость объединения слов запроса в группы, которые будут  аргументами некоторого оператора. Такие группы заключаются в скобки.

  Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

  Если  запрос без скобок машина самолет | аэродром эквивалентен запросу машина AND самолет OR аэродром и, в соответствии с приоритетами операторов, означает «найти документы, содержащие либо слова машина и самолет, либо слово аэродром», то запрос со скобками машина (самолет | аэродром) равносилен запросу машина AND (самолет OR аэродром), что означает «найти документы, содержащие слово машина и одно из слов самолет или аэродром».

  Если  запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу красная армия будут найдены те документы, в которых слова красная и армия хотя бы один раз встретятся менее чем в 40 словах друг от друга.

  Значение  ограничения контекста можно  изменять конструкцией (число, запрос), где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу (2, красная армия) найдутся только те документы, в которых между словами красная и армия хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т.е. равна 1.

  Рамблер позволяет искать страницы, на которых  размещены счетчики Top100, TopShop, TopList, SpyLog, а также HotLog. Для того, чтобы найти в интернете все страницы, на которых размещен счетчик с заданным идентифтикатором, используйте оператор ${counter=ID}, где counter - название счетчика (top100, topshop, toplist, spylog или hotlog), а ID - номер счетчика (идентификатор ресурса).

Пример: для того, чтобы найти в Интернете все страницы раздела Рамблер-Открытки (идентификатор Top100 - 193680), подайте Рамблеру запрос ${top100=193680}. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Информация о работе Организация профессионального поиска в сети Интернет