Мировые информационные ресурсы

Автор: Пользователь скрыл имя, 21 Сентября 2011 в 13:14, лекция

Описание работы

Виды деятельности, связанные с формированием информационных ресурсов, поддержанием их в актуальном состоянии, созданием средств связи, обработки и копирования информации, объединяют в понятие информационной индустрии. Под средствами обработки наряду с вычислительной техникой понимается и программное обеспечение. Товаром в сфере информационной индустрии является информация, компьютерная техника, программное обеспечение, оргтехника и другие средства, используемые в информационных технологиях.

Работа содержит 1 файл

Мировые информационные ресурсы АВ Хорошилов (учебное пособие) .doc

— 839.50 Кб (Скачать)

  Недостаточность выражения на естественном языке  проявляете в следующем:

  1. многозначность отдельных слов — омонимия (совпадение по звучанию и написанию разных по значению слов). Например, «ключ (для двери), «ключ» (источник);
  2. эллипсность естественного языка. Под эллипсностью понимается пропуск в тексте подразумеваемых слов.

 Если  рассматривать процесс отражения  объектов реального мира текстом  на естественном языке, то в нем можно  выделить план содержания — смысл сообщения, то есть результат процесса мышления, и план выражения — произвольный текст на естественном языке. Таким образом, тексты на естественном языке, хранящиеся в информационных системах, находятся на уровне плана выражения и характеризуются всеми недостатками естественного языка, которые были отмечены выше. Следует иметь в виду, что выявленные недостатки следует рассматривать лишь с позиций эффективного поиска сообщений в информационных системах. Причина неоднозначности выражений, например эллипсность, при рассмотрении под другим углом будет отнесена к достоинствам естественного языка.

Отметим, что потребитель информации, пользователь нуждается в получении информации о предметной области в соответствии со своими представлениями об объектах, свойствах и отношениях в этой области. Свой запрос он также формулирует на уровне плана выражения. Таким образом, в самой информационной системе, содержащей тексты на естественном языке, мы имеем массив планов выражения источников на естественном языке, а на входе информационной системы мы имеем множество запросов в виде планов выражения, сформулированных потребителями информации.

 Для того чтобы решить задачу поиска необходимой  потребителю информации, необходимо смоделировать (представить) — о каком фрагменте предметной области потребитель хочет получить информацию. Далее необходимо просмотреть хранящиеся документы — планы выражения, составленные источниками, представить (смоделировать), что хотел сказать источник о предметной области, и на основе научно обоснованной методики отобрать те из документов, которые отвечают на поставленный вопрос полностью или частично.

 Работы  в области машинного перевода и теории построения документальных информационных систем, проводимые в течение последних 50 лет в нашей стране и за рубежом, показали, что процесс выявления смысла произвольного текста на естественном языке не подлежит автоматизации и может быть реализован лишь человеком, обладающим глубокими знаниями в данной предметной области.

 Однако  общество нуждалось в построении документальных информационных систем, в первую очередь в области научно-технической информации. Для того чтобы облегчить поиск в больших массивах текстовой информации, стали строить информационно-поисковые системы, в которых документы описывались с помощью специальных поисковых языков. С помощью элементов этих же языков описывались и запросы. Для отбора документов в ответ на запрос осуществлялось сравнение поисковых образов запросов и поисковых образов; документов, которое проводилось на одном и том же искусственном языке. Такой подход является вынужденным.

 Из-за недостатков естественного языка, отмеченных выше, документальные информационные системы не дают ответа на вопрос потребителя, а выдают ему документы, в которых может содержаться ответ на его запрос, предоставляя потребителю самому выявить смысловое содержание этих документов. Вопросы оценки эффективности поиска информации в документальных информационных системах будут рассмотрены ниже.

1.6. Вопросы эффективности поиска информации в Интернете

и профессиональных базах

 Одними  из наиболее важных показателей эффективности  информационных систем, содержащих текстовую информацию, являются; семантические показатели (т.е. смысловые – содержание смысла). Семантические показатели основаны на оценке релевантности между документами и запросами.

 Релевантность — объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.

 Семантическими  показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).

Введем следующие  обозначения:

а — множество  релевантных и выданных системой документов;

б — множество нерелевантных, но выданных системой документов;

 в — множество релевантных, но не выданных системой документов.

      Полнота выдачи (ПВ) =  

      Точность  выдачи (ТВ)  =

         Потери  информации (ПИ) =

      Информационный  шум (ИШ) =  

 Другой  группой показателей оценки эффективности  документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы.

 Прагматические  показатели определяют абоненты системы  на базе оценок пертинентности выданных документов.

 Пертинентность  — это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.

 Рассмотрим  вопросы оценки эффективности поиска в профессиональных базах и информационных ресурсах Интернета.

 Анализ  содержимого профессиональных баз  за последние 15 лет показывает неуклонный рост доли текстовой информации в  общем объеме информации в профессиональных базах. Если в 1985 г. доля текстовой информации составляла 47 %, то в 2000 г. эта доля составляла уже 84 %. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на информационные ресурсы Интернета.

 Информационные  ресурсы Интернета и имеющиеся  в среде Интернет поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде.

 Основными поисковыми средствами в Интернете  являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:

  • робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;
  • индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;
  • программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребителю найденные документы.

 В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется

человеком. Пользователь ищет информацию в каталоге вручную, используя рубрики.

 В связи  с тем что в средствах поиска в Интернете не используются информационно-поисковые  языки, на которых могли бы быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

 В 2000 г. специалисты компаний AltaVista, IBM и Compag исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн web-страниц и 1,5 млрд ссылок, размещенных на этих' страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:

  • центральное ядро — тесно связанные между собой web-страницы, с каждой из которых можно попасть на любую другую (27 %);
  • отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22 %);
  • оконечные web-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22 %);
  • полностью изолированные от центрального ядра страницы (22 %);
  • web-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).

 Исследования  показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа.

 У каждой поисковой машины свой процент индексирования документов и своя стратегия выбора — какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубежными поисковыми системами, от общего числа документов в Интернете, проведенный в 1999 г., показал, что доля заиндексированных документов у лидеров в этой области не превышает 30 %. Следует отметить, что количество документов в Интернете значительно увеличивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается.

 Информационные  ресурсы Интернета делятся на «видимую» и «невидимую» части сайтов.

   «Видимая» часть сайтов — это  та часть, которая обрабатывается  поисковыми системами и индексируется. «Невидимая» — часть сайтов, которая не предназначена для обработки поисковыми системами. Американская фирма BrightPlanet разработала программное обеспечение по исследованию «невидимой» части сайтов. Полученные результаты показывают, что число документов «невидимой» части превышает более чем в 500 раз число документов, относящихся к «видимой» части.

 Перечисленные особенности информационных ресурсов Интернета и поисковых средств позволяют сделать вывод о том, что эффективность поиска информации в Интернете существенно уступает эффективности поиска в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах. Указанные обстоятельства определяют высокие требования к профессиональной подготовке пользователя, которая необходима для получения нужной информации из информационных ресурсов Интернета.

 Организация информации в профессиональных базах  отличается от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 13 тыс. В каждой базе собрана специфичная информация. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, то есть обновляют. Получение информации из баз потребителями обеспечивают агентства-поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базы данных, которая включает следующие сведения по каждой базе: название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной информации, период обновления, источники информации.

 Указанные особенности обеспечивают высокие  показатели по достоверности, полноте и точности предоставляемой информации.

1.7. Технология поиска  информации в Интернете  и профессиональных базах

 Наилучшим вариантом работы с информационными  ресурсами Интернета является вариант, когда пользователь знает адрес сайта и получает возможность ознакомиться с его содержимым. Адрес сайта Может быть получен из различных справочников, например желтых страниц Интернета, рекламных материалов и других источников. На сайт можно прийти по гиперссылкам, просматривая другие сайты.

 Опытный специалист в области информации всегда будет иметь список, каталог адресов самых важных для ведения бизнеса фирмы сайтов. В этом случае необходимо лишь отслеживать появление новых сайтов, информация в которых может представлять интерес.

  Если  пользователь исследует новую проблему в бизнесе, ищет информацию среди ресурсов, которые он еще не освоил, одним из основных методов является использование поисковых машин и каталогов.

 В этом случае может быть предложена следующая  технология подготовки и проведения поиска.

  1. Определение общей направленности запроса, его содержания.
  2. Определение географических регионов поиска. В первую очередь для практических задач ценность информационного ресурса может зависеть от его географического расположения.
  3. Отбор поисковых машин. Осуществляется отбор и устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска в каждой из машин. Качество выполнения этого этапа будет зависеть от опыта работы пользователя с поисковыми машинами.
  4. Составление запросов к поисковым машинам. Это наиболее сложный этап. Для эффективного использования поисковых машин запрос составляется так, чтобы область поиска была сужена в максимальной степени. Предпочтение должно отдаваться не одному расширенному, а нескольким узким запросам. Необходимо смоделировать, представить себе, как может выглядеть искомая информация. По ключевым словам следует составить тезаурус. Для этого необходимо хорошее знание языка, на котором работает пользователь, и специфических терминов предметной области.
  5. Выполнение запроса и его уточнение. Составленный запрос передается на обработку. Анализ полученных результатов позволяет корректировать запрос, чаще всего с целью сужения области поиска.

Информация о работе Мировые информационные ресурсы