Автор: Пользователь скрыл имя, 05 Декабря 2010 в 20:48, курсовая работа
Целью курсовой работы является изучение особенностей поиска информации в Интернет в разных поисковых системах и каталогах по разным типам запросов.
Для достижения поставленной цели в работе ставятся следующие задачи:
◦обозначить основные теоретические аспекты, связанные с понятием Интернет
◦рассмотреть популярные поисковые системы и каталоги
◦изучить основные способы поиска информации в Интернет
◦научиться формировать простые и расширенные запросы на поиск
◦сопоставить полученные данные по разным типам запросов
ВВЕДЕНИЕ 5
1 ИНТЕРНЕТ И ПРОБЛЕМЫ ПОИСКА ИНФОРМАЦИИ 6
2 ОСНОВНЫЕ СИСТЕМЫ И СРЕДСТВА ПОИСКА ИНФОРМАЦИИ 9
2.1 Поисковая система 9
2.2 Специализированные поисковые службы 10
2.3 Метапоискавая система 11
3 ПОПУЛЯРНЫЕ ПОСКОВЫЕ СИСТЕМЫ И КАТАЛОГИ 13
3.1 Международные поисковые системы и каталоги 13
3.2 Российские поисковые службы 18
3.3 Белорусские поисковые службы 22
4 ФОРМИРОВАНИЕ ЗАПРОСА НА ПОИСК 27
4.1 Приёмы поиска информации 27
4.2 Простой запрос 28
4.3 Расширенный запрос 30
ЗАКЛЮЧЕНИЕ 33
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 34
ПРИЛОЖЕНИЕ 1 Анализ в Excel результатов поиска в разных поисковых системах и каталогах по разным типам запросов 35
Простой запрос: "Где можно купить Longman?" 35
Расширенный запрос: "Где можно купить Longman/Muller?" 36
ПРИЛОЖЕНИЕ 2 Тест 37
ПРИЛОЖЕНИЕ 3 Презентация темы в MC PowerPoint 42
Каждая
поисковая система
Прежде всего, надо заметить, что чем точнее сформулировано задание на поиск, тем точнее будут и результаты. Например, если вы хотите найти документы с описанием замеченных ошибок Windows 98, то так и надо формулировать запрос: ошибки Windows 98, а не просто Windows. На англоязычных серверах очень часто срабатывает простое человеческое описание проблемы: printer works incorrectly (принтер работает неправильно) [2].
При поиске любого объекта в Интернете используются три основных принципа:
Поиск по категориям осуществляется таким образом: собирается информация о web-страницах и ссылки на них раскладываются по категориям, каталогам. Серверы, которые этим занимаются, хорошо известны: Yahoo, Excite, Infoseek, Lycos, @Rus, Se@rch.
На начальной странице такого сервера можно найти список основных категорий (каждый элемент списка является дальнейшей ссылкой). Названия и количество категорий меняются от сервера к серверу, но они отражают основные сферы человеческих интересов и ориентироваться в них легко. Щелкнув по какой-либо категории, вы откроете список подкатегорий, выберите подходящую вам подкатегорию, и так далее, пока не дойдёте до списка web-страниц. Количество разделов и глубина разных каталогов могут существенно различаться. Составляются каталоги обычно вручную, поэтому охватывают лишь небольшую часть web-пространства.
Поиск по ключевым словам вторая из наиболее распространённых технология поиска в сети необходимой информации. Она известна также под именами «поисковых указателей», «индексов». Суть технологии заключается в том, что пользователь отсылает запрос, состоящий из ключевых слов, на центральный сервер. Для формирования запроса на web-странице расположено поле для ввода и редактирования текста, которое может служить визитной карточкой такой технологии. Сервер ищет в своей базе данных ключевые слова и выдаёт список документов, которые их включают.
Поиск по рейтингу показывает наиболее популярные сайты или ссылки, которыми пользуются пользователи сети Интернет. В последнее время пользователи часто начинают путешествие по web-пространству с посещения популярных сайтов. Выявлением таких сайтов занимаются специальные рейтинговые системы. Рейтинг определяется на основании посещаемости и/или путём голосования оценок. Каждое посещение сайта повышает рейтинг. Так формируется общественная рекомендация сайта. Строго говор, рейтинговые системы не занимаются поиском, но позволяют сориентироваться в безбрежном море информации по рекомендациям других пользователей.
Пользоваться поисковыми каталогами очень просто. Надо просто зайти на сайт, выбрать категорию, которая интересует, в ней выбрать раздел, и так далее, пока не откроется список конкретных ссылок [3].
Составить язык запросов просто. Но чтобы получить действительно нужный результат, надо ставить вопрос грамотно, для чего необходимы некоторые знания и навык. Хотя единого стандарта в языке запросов нет, его стремятся сделать максимально простым. В интерфейсе практически всех поисковых систем рядом с полем, в которое вводится запрос, стоит кнопка Поиск (Search), при нажатии на которую, осуществляется простой поиск. Однако рядом, как правило, можно найти ссылку на расширенный поиск (Advanced Search) [6].
При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если слово одно, то как правило, в ответ выдаётся такое большое количество ссылок, с которым непонятно что делать. Если вводится несколько слов, то результат зависит от того, как эти слова введены, а это, в свою очередь, зависит от конкретной используемой системы. Приёмы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию [3].
Обычно для поисковых машин запрос можно сформулировать на естественном языке. Например: «Где можно найти информацию о дистанционном обучении?» Первые пять слов поисковый сервер скорее всего отбросит как малозначащие и часто встречающиеся, а последних два нормализует (выделит коренную часть слова, отбросив приставки и окончания) и выдаст всё, что у нег есть про «дистанц» или «обучен».
Англоязычные серверы разбор слов делать, вероятнее всего, не будут, Зато они могут предложить документы, в которых будут слова «найти», «можно» и т.д. Качество поиска окажется ниже, к тому же охватывают они меньше русскоязычных документов.
В появившемся списке на первом месте будут стоять документы, в которых встречается максимальное количество слов из фразы запроса, а при прочих равных условиях они будут ранжированы в соответствии с условиями, которые упоминались выше. Если в списке мало ссылок или они явно не имеют отношения к предмету вашего поиска, попробуйте создать запрос из синонимов.
В собственных именах надо учитывать различие между строчными и прописными буквами. Чаще всего при поиске строчные преобразуются в прописные, а обратного преобразования нет. Набрав запрос, прочитайте его внимательно. Порой результатов вы не получите из-за элементарных опечаток.
Можно сделать простейший анализ слов самим. Для этого надо воспользоваться вспомогательным символом «*», который заменяет любое количество символов до конца слова.
Знак вопроса «?» в отличие от «*» заменяет только одну букву. В нашем примере это будет запрос в виде «дистанц* обучен*».
Когда ссылок слишком много, их число можно уменьшить, составив лишь те документы, где встречаются оба искомых слова, причём одновременно. Это достигается использованием знака «+» перед словом, которое должно обязательно присутствовать. Например, запрос «+дистанц* +обучен*» уменьшит количество выдаваемых ссылок.
Знак «-» играет обратную роль. Он исключает из списка ссылок те, которые имеют слово, следующее за знаком «-». Например, запрос «дистанц* обучен* - матем*» выбросит из предыдущего списка все ссылки, в которых упомянута математика или другие слова с тем же корнем.
Важную роль при поиске играют кавычки. По запросу, в котором присутствуют словосочетания в кавычках, будет разыскиваться только точно такое словосочетание или фраза. Например, в ответ на запрос «дистанционное обучение» появятся ссылки только на те документы, где встречаются эти два слова подряд именно в этом падеже и написании. Такой поиск называют ещё контекстным [6].
Произведён анализ результатов поиска в разных поисковых системах и каталогах. Анализ показал, что поисковые системы, которые дают наиболее точную информацию по простому виду запроса – это международные поисковые системы и каталоги. Наиболее качественный поиск информации наблюдается в поисковой системе Google. Эта поисковая система опередила остальные в простом запросе на поиск. Наибольшее количество релевантных ссылок было найдено именно в этой поисковой системе.
Среди остальных поисковых систем можно выделить систему Яндекс, которая показала наилучшие результаты поиска по данному типу запроса.
Среди белорусских поисковых систем можно выделить только поисковую систему Open. Так как только она дала две релевантные ссылки по простому типу запроса.
Кроме средства простого поиска обычно поисковые службы предоставляют средства расширенного поиска. Эти средства позволяют более точно формулировать поисковое задание, но требуют определенного опыта и работают заметно медленнее. В большинстве поисковых систем команды расширенного поиска формируются с помощью логических команд и рассчитаны на профессионалов. Удобство использования логических команд в частности связано с тем, что команды простого поиска у многих поисковых систем реализованы по-разному. Каждая система стремится сделать средства простого поиска наиболее удобными, а средства расширенного поиска – наиболее стандартными [2].
Для составления запросов нужен некоторый навык, поэтому к такому способу обращаются уже опытные пользователи. Хотя работает он медленно, но результаты обычно гораздо состоятельнее и на их проверку уходит меньше времени.
Рассмотрим подробнее операторы и команды, которые могут применяться:
Команда or (возможные синонимы: знак « | », а в русскоязычных системах «или») – логическое «ИЛИ». Если в запросе два слова связаны командой or, то будет найден документ, в котором присутствует первое или второе слово, или оба слова одновременно. В некоторых системах роль команды or играет пробел, т.е. эта команда выполняется по умолчанию.
Команда and (синонимы: &, в русскоязычных сайтах «и») – логическое «И». Если два слова связаны and, то будут отобраны документы, в которых присутствуют оба слова одновременно. Команда and имеет приоритет перед командой or. В запросе optics or laser and physics будут разыскиваться документы, в которых есть упоминание или об оптике, или о лазерах и физике (присутствуют одновременно), или о том и другом. Эта команда – аналог «+» в простом поиске.
Команда not (синонимы: !; «не») – логическое отрицание. Команда not – аналог знака «-» в простом поиске. Она исключает из результатов поиска документы, стоящие за not.
Скобки ( ) позволяют группировать слова в запросах. Как обычно, сначала выполняются действия в скобках. Запрос (gel and glass) or (crystals and not diamond) будет искать документы, содержащие упоминание о гелях и стёклах или кристаллах, за исключением алмазов.
Команда near не является собственно логическим оператором, а разработана специально для поисковых систем, чтобы придать гибкость поиску словосочетаний. Она показывает, как далеко могут отстоять слова друг от друга. Практически каждый из серверов имеет свой синтаксис этой команды. Например, computer near/3 monitor означает, что слова «компьютер» и «монитор» могут быть разделены не более чем тремя другими словами.
Команда title: позволяет найти словосочетание, входящее в заголовок web-страницы. Например, title: Ford отберёт документы, в заголовке которых имеется Ford.
Команда link: позволяет найти страницы, на которых есть ссылки на указанный после link: адрес. Например, link: http://www.microsoft.com/index найдёт страницы, которые ведут к начальной странице сайта microsoft.com.
Команда url: позволяет отобрать объекты с заданными url-адресами документов.
Команда host: позволяет найти объекты с заданным именем узла. При этом в команду может включаться как полное имя, так и любая его часть. Команда бывает полезна, когда вы хотите исследовать файл только с одного узла или, наоборот, исключить его из рассмотрения. Например: laser and host: www.physics.university.edu. Типичный случай – поиск на сервере, не имеющем собственной поисковой машины [6].
Сужение поиска – основной метод выделения нужной информации из невообразимой массы документов в Интернете. Но бывает и так, что предоставленная в результате поиска информация недостаточна, так что приходится иногда поиск и расширять. В большинстве поисковых систем сужение и расширение поиска обеспечивается применением логических операторов или включающих и выключающих условий. Но не меньшее значение имеет просто правильный выбор ключевых слов для поиска [10].
Произведён анализ результатов поиска в разных поисковых системах и каталогах по расширенному типу запроса.
Среди остальных поисковых систем можно выделить систему Апорт, которая показала наилучшие результаты поиска по данному типу запроса.
Среди белорусских поисковых систем можно выделить только поисковую систему Open. Так как лишь она дала одну релевантную ссылку по расширенному типу запроса.
Важным условием плодотворной работы в Интернете является систематизация поиска информации и выработка правильной ее стратегии. Первое, что надо сделать перед систематическим поиском, – точно определиться, что необходимо найти. Хорошо если поиск абсолютно конкретен. Труднее будет задача поиска материалов, относящихся к какому-либо широкому понятию. Кроме того, немаловажны факторы времени и национальной принадлежности данных. К сожалению, многие данные, относящиеся ко времени до появления Web, находятся в архивных хранилищах с ограниченным доступом. Помимо этого, существует масса крупных архивов и поисковых систем на языках западных народов. И найти в них данные на русском языке весьма трудно.