АСОИиУ с точки зрения поисковых систем. Персонификация информации

Автор: Пользователь скрыл имя, 09 Декабря 2012 в 10:34, реферат

Описание работы

В результате автоматизации операций, пользователи часто ошибочно полагают, что поисковые системы выдают нейтральные результаты, не подверженные никакому стороннему влиянию. Однако, как и любая другая медиа компания, поисковые системы совершенно определенно контролируют выбор пользователя, что ведет к "навязанным" результатам поиска (данный феномен так и называется - "навязывание поисковыми системами").

Содержание

Введение3
1 Информационно – поисковые системы5
2 Персонификация информации11
2.1 Индексация 11
2.2 Навязывание 12
2.3 Составление списка результатов14
2.4 Персонифицированные алгоритмы18
Заключение20
Список использованных источников21

Работа содержит 1 файл

АСОИиУ с точки зрения поисковых систем. Персонификация информации.docx

— 44.33 Кб (Скачать)

Федеральное государственное автономное

образовательное учреждение

высшего профессионального  образования

«СИБИРСКИЙ  ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ»

 

Институт  космических и информационных технологий

Кафедра Информатики

 

 

 

 

 

 

 

 

 

 

РЕФЕРАТ

 

АСОИиУ с  точки зрения поисковых систем. Персонификация информации

 

 

 

 

 

 

 

 

 

 

 

 

         Преподаватель                                                              П.В. Зеленков

                                                              подпись, дата                          инициалы, фамилия

 

         Студент          030902199                                              И.Ю. Макаренко

                                               номер зачетки                подпись, дата                           инициалы, фамилия

 

 

 

 

 

 

 

 

Красноярск 2012 

СОДЕРЖАНИЕ

 

Введение3

1 Информационно – поисковые системы5

2 Персонификация информации11

2.1 Индексация 11

2.2 Навязывание 12

2.3 Составление списка результатов14

2.4 Персонифицированные алгоритмы18

Заключение20

Список использованных источников21

 

Введение

 

В результате автоматизации операций, пользователи часто ошибочно полагают, что поисковые системы выдают нейтральные результаты, не подверженные никакому стороннему влиянию. Однако, как и любая другая медиа компания, поисковые системы совершенно определенно контролируют выбор пользователя, что ведет к "навязанным" результатам поиска (данный феномен так и называется - "навязывание поисковыми системами").

За последние несколько лет поисковые системы стали одной из главных сил нашей информационной экономики. Они помогают пользователям самостоятельно производить миллионы (и даже миллиарды) поисков в день. При таком широком охвате, поисковые системы имеют значительное влияние на формирование поведения пользователя и его восприятие. Получается, что выбор, который делают поисковые системы при сборе, обработке и представлении информации, влияет и на общество в целом. 

Обычно поисковые системы автоматизируют центральные операции, включая те процессы, которые используются для сбора данных и их сортировки в порядке представления пользователю. И эта автоматизация придает поисковым системам эффект объективности и правдоподобия. 

Получается, что машины, а не люди оценивают информацию, создавая впечатление, что поисковые системы не подвержены продуманному структурному представлению данных, которое свойственно любому другому медиа проекту. Результаты маркетинговых исследований обычно только усиливают это ощущение объективности и независимости от внешних факторов.

К сожалению, данный романтический взгляд на поисковые системы не соответствует действительности. Поисковики - тоже медиа компании, а, как и любые другие медиа компании, в поисковые системы заложен определенный "плановый подбор информации", сформированный таким образом, чтобы удовлетворять своих пользователей. В результате этого, некоторый контент систематически ставится приоритетным, создавая, таким образом, феномен, называющийся "навязыванием" поисковыми системами.

 

1 Информационно – поисковые системы

 

Информационно-поисковая  система (ИПС) — это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации — текстов (документов) или данных (фактов). Информационно-поисковыми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными.

Информационно-поисковые системы в АСУ должны обеспечивать обработку чрезвычайно больших массивов информации, включающих сотни и тысячи документов. Поэтому создание таких систем часто требует очень больших трудовых затрат. Так, разработка только перечней используемых понятий ( дескрипторов), их эквивалентности, подчинения и связи между ними, сводимых в специальные словари-тезаурусы объемом в десятки тысяч слов, требует 3 - 5 лет работы крупных коллективов специалистов.

В зависимости  от объекта хранения и типа запроса  различают два вида информационного  поиска: документальный и фактографический — и, соответственно, два типа ИПС — документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается  в подходе к семантике документов. В документальных системах описывается  смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические  системы предполагают накопление и  поиск в массиве документов со строго регламентированной структурой. Такая структура является или  результатом предварительной интеллектуальной обработки документов при вводе  информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных  по содержанию и структуре, но это  разнообразие всегда конечно.

В то же время между документальными  и фактографическими системами  нет непреодолимой разницы. Нередко  реальные ИПС представляют собой  пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей.

Выделяют  еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая  система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных  для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный  предмет или тема которого в целом соответствует смысловому содержанию информационного запроса, называется релевантным, а свойство смысловой близости между двумя и более текстами (в данном случае — между документом и информационным запросом) — релевантностью. Релевантность — это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержанию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, — формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность — релевантностью информации (имеется в виду «информации, содержащейся в документе»).

Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем, или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др.

Информационное  обеспечение — это информационные массивы (документы, запросы, метаданные), а также средства и способы их описания, построения и классификации.

Лингвистическое обеспечение — это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.

Программное обеспечение — это алгоритмы и программные средства, реализующие все функции ИПС, выполняемые с помощью компьютера.

Техническое обеспечение — это технические средства (компьютеры, средства телекоммуникаций), обеспечивающие хранение, поиск и передачу информации.

Технологическое обеспечение — это набор и порядок выполнения автоматизированных и неавтоматизированных процессов и процедур обработки информации в ИПС, включая их описание, информационно-технологические схемы и инструктивно-методические материалы.

Кадровое (или штатное) обеспечение — это люди, взаимодействующие с системой и обеспечивающие ее эксплуатацию (обслуживающий персонал).

ИПС также  делят на составные части (подсистемы) по функциональному признаку, когда  каждая подсистема выполняет определенную функцию в технологическом процессе: ввод документов, индексирование документов, ввод и корректировка запросов, индексирование запросов, поиск, ведение словарей, ведение статистики, обработка результатов  поиска, выдача документов и др. Такие  части получили название функциональных подсистем.

Важные  понятия в информационном поиске — документ и запрос. Документ определяется как средство закрепления любым  способом на специальном материале  любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека. Документы имеют различную форму представления. В автоматизированных документальных ИПС это прежде всего текстовая информация на естественных языках в машиночитаемой форме.

Запрос  представляет собой информационную потребность, сформулированную на естественном языке. Результат «перевода» информационного запроса на информационно-поисковый язык называют поисковым образом запроса (ПОЗ) или поисковым предписанием (ПП). Под этим понимают выражение на языке запросов, который включает в себя как собственно ИПЯ, так и средства управления поиском. Синтаксис и семантика языков запросов определяется структурой и наполнением документов и общими задачами системы.

Третья  часть информационного обеспечения  — так называемая «выдача», результаты поиска. Выдача существует в двух видах: краткие описания документов и собственно документы.

Важнейшей компонентой информационно-поисковых систем является информационно-поисковый язык. Человек, чтобы отобрать из массива документов нужные, должен прочитать или просмотреть их содержимое. Для ускорения и упрощения этой процедуры появились различные формы сокращенной записи содержания документов — аннотации, рефераты, каталоги. Но во всех этих случаях при отборе документов по их сокращенным описаниям используется естественный язык. Хорошо известны такие «недостатки» языковых знаков, как омонимия, синонимия, многозначность. Точное значение многих слов можно понять только в контексте. Это препятствует использованию естественного языка для фиксации и отождествления понятийной информации. Поэтому формальные системы, предназначенные для хранения документальной информации с целью последующего поиска, потребовали создания специальных информационных языков. Информационно-поисковые языки представляют собой знаковые системы со своим алфавитом, лексикой, грамматикой и правилами пользования. Заметим лишь, что все искусственные языки так или иначе создавались и создаются на основе естественных языков.

Проблема оценки эффективности  поиска является комплексной проблемой, включающей как теоретическую, так  и практическую сторону. Главные  из функциональных (технических) показателей  ИПС, базирующихся на релевантности, —  это полнота и точность, которые  основываются на разделении документов на релевантные и нерелевантные, а также на выданные и не выданные.

 

2 Персонификация информации

 

Представители поисковых систем часто утверждают, что их центральные операции полностью  автоматизированы и свободны от вмешательства  человека. Однако данная характеристика неверна. Наоборот, работники поисковых  систем делают множество редакционных изменений в том, какие данные собирать и в каком порядке  представлять их пользователю. 

 

2.1 Индексация

 

Поисковые системы не индексируют всю доступную  информацию в Интернете. Намеренно  или нет, программы поисковых  систем пропускают некоторые веб-страницы полностью, или включают в поиск  только часть веб-страницы.

В процессе индексации поисковые системы ассоциируются  со сторонними метаданными (данными  о данных) с обрабатываемой веб-страницы. Например, поисковые системы могут  использовать в результатах поиска независимые описания веб-сайтов. 

Информация о работе АСОИиУ с точки зрения поисковых систем. Персонификация информации