Справочно-поисковые системы

Автор: Пользователь скрыл имя, 19 Февраля 2012 в 14:37, реферат

Описание работы

Рассматривая вопрос о роли и месте справочно-поисковых систем в современном информационном обществе, рассмотрим несколько вопросов, связанных с историей их появления, особенностями, обзором некоторых наиболее используемых систем.

Содержание

Введение 3
1. Структура справочно-поисковых систем сети Интернет

1.1 Как работают механизмы поиска 5
2. Наиболее популярные русскоязычные справочно-поисковые
системы в Интернет

2.1 Rambler 8

2.2 Yandex 9

2.3 Aport 10
3. Наиболее популярные зарубежные поисковики для
русскоязычного пользователя
3.1 Googlе 11

3.2 AltaVista 11

3.3 Yahoo 12

4. Википедия и две стороны медали 13

Заключение 15

Список литературы

Работа содержит 1 файл

реферат.doc

— 93.00 Кб (Скачать)

Содержание

 

Введение                                                                                                                                                                         3

1. Структура справочно-поисковых систем сети Интернет                                         

1.1 Как работают механизмы поиска                                                                                                  5

2. Наиболее популярные русскоязычные справочно-поисковые

системы в Интернет                                                                                                                                           

2.1 Rambler                                                                                                                                                                        8

2.2 Yandex                                                                                                                                                                        9

2.3 Aport                                                                                                                                                                        10

3. Наиболее популярные зарубежные поисковики для

русскоязычного пользователя                                                                                                               

3.1 Googlе                                                                                                                                                                        11

3.2 AltaVista                                                                                                                                                           11

3.3 Yahoo                                                                                                                                                                        12

4. Википедия и две стороны медали                                                                                                  13

Заключение                                                                                                                                                          15

Список литературы

 


Введение

У всего в мире есть свои истоки, не исключение и глобальная сеть Интернет. Идея такого вида связи родилась как военная разработка, и уже позже сама собой переросла в популярный способ получения информации и обеспечение связи между людьми.

Изначально первые разработчики планировали систематизировать все данные, хранящиеся в сети, и разрабатывали своеобразные каталоги сайтов. Суть каталогов была максимально проста: тематические папки, в которых хранятся ссылки на страницы, посвящённые вышеуказанным тематикам.

Следом за простой разбивкой ссылок на папки, пришли первые метки, они же – тэги, который являли собой список основных слов, характеризующих всё то, что хранится на страничке. Искать сайты в сети стало легче. Так бы всё и оставалось, но не тут то было. Интернет продолжал неумолимо разрастаться, и снова потребовались новшества в системе поиска в сети.

И вот в 1990-х годах мир увидела первая поисковая система, которая действительно была автоматизирована. Суть первых поисковых машин всё же продолжала базироваться на тэгах, но тут уже не требовался человеческий фактор, ведь кое-что система уже сама умела, причём «кое-что» было в те времена действительно огромным прорывом в данной сфере. Индекс, прообразом которого и были первые каталоги, теперь создавался не вручную, а при помощи программного робота, который самостоятельно исследовал просторы глобальной сети и добавлял странички в перечень поисковика. Уже сама поисковая машина ссылки систематизирует и раскладывает таким образом, чтобы ей самой было удобно их найти.

Ранее поисковые системы определяли, что же содержит сетевой документ, исключительно по перечню меток к нему. На пик существования данной технологии пришлась и смерть ряда поисковых систем того времени. Причина данной глобальной гибели ресурсов в том, что в Интернет перебралась индустрия эротики, и ресурсы по данной теме буквально заполонили ТОПы поисковиков по всем запросам, благодаря тегам-обманам.

После того, как все убедились в том, что пора бы что-то менять, в мир поисковиков шумно ворвался популярный нынче «Яндекс». В отличие от своих коллег, с устаревшими технологиями, специалисты «Яндекса» решили начинать поиск по сети не доверяя тэгам, а «перечитывая» весь текст веб-страницы, то бишь введя технологию полнотекстового поиска, при этом у нового русского поисковика была даже уникальная система позволяющая учитывать морфологию русского языка при обработке пользовательских запросов.

С тех пор много воды утекло, функционал поисковых машин в разы расширился. Сегодня поисковая система может рассказать даже как на море ехать, само собой не словами, а уникальной системой карт, которые составляются и обновляются путём прямой работы со спутниками. Вряд ли кто из создателей первых каталогов сайтов догадывался, что из его идеи вырастут такие полезные и многофункциональные ресурсы.

Рассматривая вопрос о роли и месте справочно-поисковых систем в современном информационном обществе, рассмотрим несколько вопросов, связанных с историей их появления,  особенностями, обзором некоторых наиболее используемых систем.


1. Структура справочно-поисковых систем сети Интернет

Поисковые cистемы обычно состоят из трех компонент:

                    агент (паук или кроулер), который перемещается по Сети и собирает информацию;

                    база данных, которая содержит всю информацию, собираемую пауками;

                    поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

 

1.1 Как работают механизмы поиска

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как находить и обрабатывать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

                    Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

                    Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

                    Кроулеры просматривают заголовки и возращают только первую ссылку.

                    Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

1.                  Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

2.                  Тэги, в которых эти слова располагаются.

3.                  Местоположение искомых слов в документе.

4.                  Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

5.                  Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

6.                  Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

 

2. Наиболее популярные русскоязычные справочно-поисковые системы в интернет

2.1 Rambler

Поисковая система Рамблер начала свое существование с 1996 года. На сегодняшний день она является одной из самых популярных в РуНете, уступая лишь Яндексу (по популярности). По оценкам SpyLog на Рамблер приходится 20-25% от всех поисковых запросов РуНета.

Поисковая система Рамблер при поиске учитывает морфологию русского языка, что дает больше возможностей для эффективного поиска информации. Реализована также система так называемых "перевязок", которая позволяет выдавать в результатах поиска не только страницы содержащие запрос, но и слова, которые являются синонимами запроса. Еще одной функцией "перевязок", думаю более значимой, является выдача контекстной рекламы не только по конкретному запросу, но и по запросам, которые тесно связаны с исходным, это позволяет перекрыть большее количество целевой аудитории.

Компания Рамблер по праву считается первой крупной рекламной площадкой российского Интернета и стоит у истоков классического сетевого рекламного бизнеса.

2.2. Yandex

На сегодняшний день имеет самую большую базу данных, которая имеет кластерную структуру и размещена на нескольких серверах.

В 1996 году компанией CompTek, созданной со стопроцентным американским участием, на выставке Internetcom было официально объявлено о существовании "Яндекса". Это была морфологическая приставка к "Альтависте", которую отличало быстродействие и умение строить гипотезы. Пословный индекс для незнакомых слов организован также, как и для словарных - этим "Яндекс" отличается от других поисковиков.

23 сентября 1997 года "Яндекс" стал интернет-проектом. Релевантность документов вычислялась в зависимости от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и так далее. И главное нововведение этой поисковой системы, которое потребовало неизбежной перестройки ядра, - ранжирование по ссылкам. Другие нововведения относятся, главным образом, к переформулированию системой запросов пользователя: "что такое предмет" преобразуется в "предмет - это...", а если запрос начинается на слово "как", то в результатах в первую очередь пытаются выдать FAQ или иной справочный документ. Новый "Яндекс" стал "понимать" альтернативную лексику, которая входит в 5 процентов запросов. Только в последней версии Яндекса индекс цитируемости стал непосредственно использоваться поисковой машиной.

В настоящее время "Яндекс" обладает самой полной базой документов среди русских искалок, а также самой узнаваемой маркой.

2.3 Aport

Поисковая машина "Апорт" была впервые продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Тогда она искала только по сайту russia.agama.com. Создателем системы выступила компания "Агама" - разработчик программного обеспечения для платформы Windows, главным из которых являлся корректор орфографии "Пропись". Лингвистические разработки "Агамы" использовались при создании поисковой машины, в которой, скажем, в отличие от "Рамблера", изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса.

Важнейшими свойствами первой версии "Апорта" являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проидексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).

"Апорт 2000" стал первым русским поисковиком, построенным на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты используется информация, которую "Апорту" предоставляет каталог AtRus или сведения, введенные в "Апорт" владельцами ресурсов. На худой конец, приходится опираться на алгоритм, который позволяет по некоторым формальным признакам выделить отдельные сайты.

Пользователи "Апорта" (в отличие завсегдатаев "Яндекса") мало пользуются расширенным поиском (на 8000 загрузок простой страницы приходится 300 вызовов страницы "Расширенный поиск").

 

3. Наиболее популярные зарубежные поисковики для русскоязычного пользователя

3.1 Googlе

Название поисковой системы Google было образовано в результате игры букв в слове "googol". Этим компания хочет подчеркнуть их намерение индексировать и обрабатывать большие объемы информации.

Вы можете искать в Google на 10 различных языках. Вы также можете настроить интерфейс на нужный вам язык. Например, если вы ищите немецкий сайт, то вы можете вводить запрос на немецком языке, и все вспомогательные надписи интерфейса будут на немецком языке.

Очень удобной функцией является "cache". Благодаря этой функцией пользователь может просмотреть проиндексированную страницу даже если эта страница удалена или сервер, на котором расположена страница недоступен. Вы также можете использовать эту функцию для исследования ваших конкурентов, это также помогает лучше понять принцип индексирования страницы поисковым пауком (роботом).

С помощью Google можно найти страницы, которые не содержаться в его базе данных. Это возможно потому что поисковый паук индексирует текст ссылок со страниц.

3.2 AltaVista

Одна из наиболее популярных поисковых систем Altavista Search появилась в декабре 1995 года. Система поражает своим быстродействием - в сутки она обслуживает более 25 миллионов запросов, при этом она отвечает на запросы незамедлительно, без всякого "притормаживания". Благодаря таким характеристикам система используется не только конечными пользователями, но и другими службами поиска, в частности, каталогом Yahoo. Система обновления индекса - краулер - посещает WWW сервера во всем мире, не испытывая проблем с языковым многообразием, поскольку Altavista поддерживает поиск на 25 языках. Странички, обновляемые редко, посещаются краулером реже чем популярные и часто обновляющиеся страницы. Дизайн у системы простой и удобный - в центре экрана находится окно с полем ввода запроса и кнопками "Search" и "Refine", немного ниже - ссылки на расширенный поиск, помощь, информацию о системе и страницу с настройками. Сервер не перегружен рекламой и графикой, поэтому все странички загружаются очень быстро. Даже начинающий пользователь мгновенно освоит технологию построения простого запроса к Altavist'e. К сожалению, на этом список преимуществ системы Altavista для неискушенного пользователя заканчивается. На простой запрос она выдает огромное количество результатов, многие из которых совершенно не имеют отношения к интересующей пользователя теме, а составление сложных (расширенных) запросов требует освоения специального языка, что для многих пользователей неприемлемо.

3.3 Yahoo

Удивительно, но эта невероятно популярная система, обслуживающая миллионы запросов ежедневно, зародилась как простая коллекция закладок, которую пополняли всего 2 человека - Дэвид Фило и Джерри Янг. На сегодняшний день Yahoo, это уже не просто каталог, это целая группа разнообразных сервисов, среди которых такие как каталог Yahooligans - Yahoo для детей, система персональных каналов My Yahoo, бесплатный E-mail сервис, система "Shop with Yahoo" (покупайте с Yahoo), совместный с MTV проект MTV unfURLed и многое другое. Среди всех рассмотренных систем, Yahoo - единственная чисто каталоговая, на Yahoo нет собственной поисковой машины. Зато список категорий на Yahoo является наиболее полным и простым - в отличие от других каталогов, на Yahoo всегда легко определить, в каком разделе находится нужная информация. Заглавная страничка Yahoo грузится очень быстро - хотя на ней очень много ссылок, но все они текстовые. Центральная часть страницы, конечно, занята окном поиска и списком категорий. Ссылки вверху страницы (графические) обеспечивают доступ к такой информации, как "что нового", "что хорошего", "More Yahoos". Последнюю ссылку рекомендуется посетить - она приводит на страницу с огромным количеством ссылок на разнообразные Yahoo-каталоги и сервисы. При задании критериев поиска для Yahoo нужно помнить, что Yahoo ищет эти слова только в названии и описании страницы, поскольку полнотекстового индекса на Yahoo нет. Поэтому не следует указывать при поиске слишком много терминов или синонимов - количество результатов с Yahoo снизится или даже будет нулевым. Количество результатов поиска на Yahoo, естественно, невелико, зато большинство из них являются релевантными. Для расширенного поиска Yahoo предлагает не очень большой, но очень полезный набор инструметов. Чтобы попасть на страничку расширенного поиска, надо перейти по ссылке "options" с основной страницы Yahoo.

4. Википедия

С появлением социальных сетей люди стали больше общаться и меньше искать, ведь гораздо проще, современному школьнику отправить сообщение с вопросом кому-либо из знакомых, чем потратить лишнюю минуту, поискав то же самое, применяя, к примеру, такой ресурс, как поисковая система Википедия. Хотя, для написания рефератов и контрольных такого рода информационно-поисковые системы Интернета используются довольно активно. В «Википедии» хранятся знания тысяч людей со всего мира, которыми они охотно поделились, потратив время на написание статей. Википедия имеет все шансы претендовать на звание культурного наследия планеты Земля, ведь по сети это огромнейшая база знаний, изучить которую полностью вряд ли кому удастся.

Трудно спорить, полезное местечко, но вот всегда ли стоит доверять полученной там информации? Википедию пишут пользователи, удостовериться в учёной степени которых никак не удастся, читая статьи. А значит, и гарантий на информацию нет ровным счётом никаких. Разве что простое человеческое доверие.

Тем более, к примеру, взяв такую отрасль, как история, можно использовать странички глобальной энциклопедии в политических целях любого государства. Как ни печально, но современные школьники уже очень многое черпают из сети, неукоснительно доверяя Яндексу и Гуглу как единственным и обязательно правдивым источникам знаний.

С тем же успехом для личных целей каждого, либо для реализации политических амбиций может быть использована любая справочно-поисковая система, ведь всем известно влияние Интернета на молодёжь, а молодёжь – это и есть будущее любой страны.

Значимо то, что через поисково-информационные сети передаётся больше правдивой информации, чем содержится в социальных сетях. Часто можно увидеть цитаты, которые якобы произносились известными людьми разных эпох, а на самом деле – придумывались нашими современниками. Но ведь подросткам и молодым людям, проводящим огромное количество времени за компьютером в социальных сетях вряд ли это объяснишь, да и проверять подлинность слов, вычитанных мельком в сети, мало кто захочет.

Вот такие обозначились две стороны медали технического прогресса, вроде бы мы имеем многое, научившись хранить, передавать и систематизировать знания собранные жителями всей планеты, но в то же время у нас появилась и прекрасная возможность фальсифицировать исторические факты, при этом, не попадая под уголовную и административную ответственность. Что будет дальше с сетью и на сколько она останется полной фактами увидят наши потомки. А нам пока остаётся только надеться на то, что период глобального «социального» зомбирования всё-таки скоро завершится и будущее поколение научится отделять «зёрна от плевел», а не пойдёт по пути глобальной деградации, отдавая лучшие годы жизни на просиживание за экраном монитора, как это происходит в наши дни.


Заключение

Сегодня,не указывая конкретных цифр, можно сказать, что нужную информацию не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.

 

 

 

 

 


Список литературы и интернет-источников

 

1.      Андрей Аликберов "Несколько слов о том, как работают роботы поисковых машин". http://www.citforum.ru/internet/search/art_1.shtml1.

2.      Г.И. Куприянова Информационные ресурсы Internet / – М., 2002

3.      Павел Храмцов "Поиск и навигация в Internet". http://www.osp.ru/cw/1996/20/31.htm

4.      Обучение Интернет-профессиям. Search engine Expert. http://searchengine.narod.ru/archiv/se_2_250500.htm

5.      http://expertmagazine.ru/biblioteka

2

 

Информация о работе Справочно-поисковые системы