Автор: Пользователь скрыл имя, 21 Сентября 2011 в 13:14, лекция
Виды деятельности, связанные с формированием информационных ресурсов, поддержанием их в актуальном состоянии, созданием средств связи, обработки и копирования информации, объединяют в понятие информационной индустрии. Под средствами обработки наряду с вычислительной техникой понимается и программное обеспечение. Товаром в сфере информационной индустрии является информация, компьютерная техника, программное обеспечение, оргтехника и другие средства, используемые в информационных технологиях.
Недостаточность выражения на естественном языке проявляете в следующем:
Если
рассматривать процесс
Отметим,
что потребитель информации, пользователь
нуждается в получении
Для того чтобы решить задачу поиска необходимой потребителю информации, необходимо смоделировать (представить) — о каком фрагменте предметной области потребитель хочет получить информацию. Далее необходимо просмотреть хранящиеся документы — планы выражения, составленные источниками, представить (смоделировать), что хотел сказать источник о предметной области, и на основе научно обоснованной методики отобрать те из документов, которые отвечают на поставленный вопрос полностью или частично.
Работы в области машинного перевода и теории построения документальных информационных систем, проводимые в течение последних 50 лет в нашей стране и за рубежом, показали, что процесс выявления смысла произвольного текста на естественном языке не подлежит автоматизации и может быть реализован лишь человеком, обладающим глубокими знаниями в данной предметной области.
Однако общество нуждалось в построении документальных информационных систем, в первую очередь в области научно-технической информации. Для того чтобы облегчить поиск в больших массивах текстовой информации, стали строить информационно-поисковые системы, в которых документы описывались с помощью специальных поисковых языков. С помощью элементов этих же языков описывались и запросы. Для отбора документов в ответ на запрос осуществлялось сравнение поисковых образов запросов и поисковых образов; документов, которое проводилось на одном и том же искусственном языке. Такой подход является вынужденным.
Из-за
недостатков естественного
1.6. Вопросы эффективности поиска информации в Интернете
и профессиональных базах
Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются; семантические показатели (т.е. смысловые – содержание смысла). Семантические показатели основаны на оценке релевантности между документами и запросами.
Релевантность — объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.
Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).
Введем следующие обозначения:
а — множество релевантных и выданных системой документов;
б — множество нерелевантных, но выданных системой документов;
в — множество релевантных, но не выданных системой документов.
Полнота выдачи (ПВ) =
Точность выдачи (ТВ) =
Потери информации (ПИ) =
Информационный шум (ИШ) =
Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы.
Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.
Пертинентность — это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.
Рассмотрим вопросы оценки эффективности поиска в профессиональных базах и информационных ресурсах Интернета.
Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Если в 1985 г. доля текстовой информации составляла 47 %, то в 2000 г. эта доля составляла уже 84 %. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на информационные ресурсы Интернета.
Информационные ресурсы Интернета и имеющиеся в среде Интернет поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде.
Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:
В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется
человеком. Пользователь ищет информацию в каталоге вручную, используя рубрики.
В связи с тем что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.
В 2000 г. специалисты компаний AltaVista, IBM и Compag исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн web-страниц и 1,5 млрд ссылок, размещенных на этих' страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:
Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа.
У каждой поисковой машины свой процент индексирования документов и своя стратегия выбора — какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубежными поисковыми системами, от общего числа документов в Интернете, проведенный в 1999 г., показал, что доля заиндексированных документов у лидеров в этой области не превышает 30 %. Следует отметить, что количество документов в Интернете значительно увеличивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается.
Информационные ресурсы Интернета делятся на «видимую» и «невидимую» части сайтов.
«Видимая» часть сайтов — это
та часть, которая
Перечисленные особенности информационных ресурсов Интернета и поисковых средств позволяют сделать вывод о том, что эффективность поиска информации в Интернете существенно уступает эффективности поиска в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах. Указанные обстоятельства определяют высокие требования к профессиональной подготовке пользователя, которая необходима для получения нужной информации из информационных ресурсов Интернета.
Организация информации в профессиональных базах отличается от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 13 тыс. В каждой базе собрана специфичная информация. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, то есть обновляют. Получение информации из баз потребителями обеспечивают агентства-поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базы данных, которая включает следующие сведения по каждой базе: название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной информации, период обновления, источники информации.
Указанные особенности обеспечивают высокие показатели по достоверности, полноте и точности предоставляемой информации.
1.7. Технология поиска информации в Интернете и профессиональных базах
Наилучшим вариантом работы с информационными ресурсами Интернета является вариант, когда пользователь знает адрес сайта и получает возможность ознакомиться с его содержимым. Адрес сайта Может быть получен из различных справочников, например желтых страниц Интернета, рекламных материалов и других источников. На сайт можно прийти по гиперссылкам, просматривая другие сайты.
Опытный специалист в области информации всегда будет иметь список, каталог адресов самых важных для ведения бизнеса фирмы сайтов. В этом случае необходимо лишь отслеживать появление новых сайтов, информация в которых может представлять интерес.
Если пользователь исследует новую проблему в бизнесе, ищет информацию среди ресурсов, которые он еще не освоил, одним из основных методов является использование поисковых машин и каталогов.
В этом случае может быть предложена следующая технология подготовки и проведения поиска.