Классификация и кодирование информации

Автор: Пользователь скрыл имя, 02 Мая 2012 в 23:45, доклад

Описание работы

Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов - то процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

Работа содержит 1 файл

КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ ИНФОРМАЦИИ.docx

— 131.95 Кб (Скачать)

КЛАССИФИКАЦИЯ И  КОДИРОВАНИЕ ИНФОРМАЦИИ

Система классификации

Важным понятием при работе с  информацией является классификация объектов.

Классификация - cистема распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком

Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов - то процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

Пример 2.6. Всю информацию об университете можно классифицировать по многочисленным информационным объектам, которые будут характеризоваться общими свойствами:

  • информация о студентах - в виде информационного объекта ''Студент'';
  • информация о преподавателях - в виде информационного объекта "Преподаватель";
  • информация о факультетах - в виде информационного объекта "Факультет" и т.п.

Свойства информационного объекта  определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, например вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия.

Реквизит - логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п.

Пример 2.7. Информация о каждом студенте в отделе кадров университета систематизирована и представлена посредством одинаковых реквизитов:

  • фамилия, имя, отчество;
  • пол;
  • год рождения;
  • место рождения;
  • адрес проживания;
  • факультет, где проходит обучение студент, и т.д.

Все перечисленные реквизиты характеризуют  свойства информационного объекта "Студент".

Кроме выявления общих свойств  информационного объекта классификация  нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов.

Пример 2.8.

Алгоритм обработки информационных объектов библиотечного фонда позволяет  получить информацию о всех книгах по определенной тематике, об авторах, абонентах и т.д.

Алгоритм обработки информационных объектов фирмы позволяет получить информацию об объемах продаж, о  прибыли, заказчиках, видах производимой продукции и т.д.

Алгоритмы обработки в том и  другом случае преследуют разные цели, обрабатывают разную информацию, реализуются  разными способами.

При любой классификации желательно, чтобы соблюдались следующие  требования:

  • полнота охвата объектов рассматриваемой области;
  • однозначность реквизитов;
  • возможность включения новых объектов.

В любой стране разработаны и  применяются государственные, отраслевые, региональные классификаторы. Например, классифицированы: отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д.

Классификатор - систематизированный свод наименований и кодов классификационных группировок.

При классификации широко используются понятияклассификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное как признак классификации. Признак классификации имеет также синоним основание деления.

Пример 2.9. В качестве признака классификации выбирается возраст, который состоит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет.

Можно в качестве признаков классификации  использовать: возраст до 20 лет, возраст  от 20 до 30 лет, возраст свыше 30 лет,

Разработаны три метода классификации  объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков. Рассмотрим основные идеи этих методов  для создания систем классификации.

Иерархическая система  классификации

Иерархическая система классификации (рис. 2.3) строится следующим образом:

  • исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень;
  • каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень;
  • каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень и т.д.

Рис. 2.3. Иерархическая система классификации

Учитывая достаточно жесткую процедуру  построения структуры классификации, необходимо перед началом работы определить ее цель, т.е. какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются  в дальнейшем за признаки классификации.

Запомните! В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.

В иерархической системе классификации  каждый объект на любом уровне должен быть отнесен к одному классу, который  характеризуется конкретным значением  выбранного классификационного признака. Дня последующей группировки  в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор  классификационных признаков будет  зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии.

Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания  деления, характеризует глубину классификации.

Достоинства иерархической системы классификации:

  • простота построения;
  • использование независимых классификационных признаков в различных ветвях иерархической структуры. Недостатки иерархической системы классификации;
  • жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;
  • невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.

Пример 2.10. Поставлена задача - создать иерархическую систему классификации для информационного объекта "Факультет", которая позволит классифицировать информацию обо всех студентах по следующим классификационным признакам: факультет, на котором он учится, возрастной состав студентов, пол студента, для женщин - наличие детей. Система классификации представлена на рис.2.4 и будет иметь следующие уровни:

  • 0-й уровень. Информационный объект "Факультет";
  • 1-й уровень. Выбирается классификационный признак - название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах;
  • 2-й уровень. Выбирается классификационный признак - возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому факультету выделяются три возрастных подкласса студентов;
  • 3-й уровень. Выбирается классификационный признак - пол. Каждый подкласс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы - мужчин и женщин;
  • 4-й уровень. Выбирается классификационный признак - наличие детей у женщин: есть, нет.

Созданная иерархическая система  классификации имеет глубину  классификации, равную четырем.

Рис. 2.4. Пример иерархической системы  классификации для информационного  объекта "Факультет"

Фасетная система  классификации

Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами(facet - рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке хотя предпочтительнее их упорядочение.

Пример 2.11. Фасет цвет содержит значения: красный, белый, зеленый, черный, желтый.

Фасет специальность содержит названия специальностей.

Фасет образование содержит значения: среднее, среднее специальное, высшее.

Схема построения фасетной системы  классификации в виде таблицы  отображена на рис. 2.5. Названия столбцов соответствуют выделенным классификационным  признакам (фасетам), обозначенным Ф1, Ф2,..., Фi,..., Фn. Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обозначенный Ф2, содержит значения: красный, белый, зеленый, черный, желтый.

Ф1, Ф2,..., Фi,..., Фn

Рис 2.5. Фасетная система классификации

Процедура классификации состоит  в присвоении каждому объекту  соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта  задается конкретная группировка фасетов  структурной формулой, в которой  отражается их порядок следования:

Ks=( Ф1, Ф2,..., Фi,..., Фn),

где Фi- i-й фасет;

n - количество фасетов.

При построении фасетной системы классификации  необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно  модифицировать, внося изменения  в конкретные значения любого фасета.

Достоинства фасетной системы классификации:

  • возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;
  • возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.

Пример 2.12. Обратитесь к содержанию примера 2.10, где показано построение иерархической системы классификации. Для сопоставления разработаем фасетную систему классификации.

Сгруппируем и представим в виде таблицы (рис. 2.6) все классификационные  признаки по фасетам:

фасет название факультета с пятью названиями факультетов;

фасет возраст с тремя возрастными группами;

фасет пол с двумя градациями;

фасет дети с двумя градациями.

Структурную формулу любого класса можно представить в виде:

Ks=(Факультет, Возраст, Пол, Дети)

Присваивая конкретные значения каждому  фасету, получим следующие классы:

К1=(Радиотехнический факультет, возраст до 20 лет, мужчина, есть дети);

K2=(Коммерческий факультет, возраст от 20 до 30 лет, мужчина, детей нет);

К3=(Математический факультет, возраст до 20 лет, женщина, детей нет) и т.д.

Рис. 2.6. Пример фасетной системы классификации  для информационного объекта "Факультет"

Дескрипторная система  классификации

Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному  языку описания информационных объектов. Особенно широко она используется в  библиотечной системе поиска.

Суть дескрипторного метода классификации  заключается в следующем:

  • отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
  • выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
  • создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Пример 2.13. В качестве объекта классификации рассматривается успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся, преподаватель, учитель, педагог, факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.

Информация о работе Классификация и кодирование информации