Классификация данных методом Data Mining

Автор: Пользователь скрыл имя, 26 Февраля 2013 в 17:32, реферат

Описание работы

Корпоративная база данных любого современного предприятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный объект или факт. Например, запись в таблице продаж отражает тот факт, что такой-то товар продан такому-то клиенту тогда-то таким-то менеджером, и по большому счету ничего, кроме этих сведений, не содержит. Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно — сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными.

Содержание

1) Классификация данных методом Data Mining
2) Методы исследования данных в Data Mining
3) Задача классификации
4) Задача классификации 2
5) Задача классификации 3
6) Задача классификации 4
7) Точность классификации: оценка уровня ошибок
8) Использованная литература

Работа содержит 1 файл

Классификация данных методом Data Mining 2.doc

— 415.50 Кб (Скачать)

                Использование модели: классификация  новых или неизвестных значений.

                Оценка правильности (точности) модели.

                Известные значения из тестового  примера сравниваются с результатами  использования полученной модели.

                Уровень точности -процент правильно  классифицированных примеров в тестовом множестве.

                Тестовое множество, т.е. множество,  на котором тестируется построенная  модель, не должно зависеть от  обучающего множества. 

 Если точность модели допустима,  возможно использование модели  для классификации новых примеров, класс которых неизвестен.

Задача классификации 5

Процесс классификации, а именно, конструирование  модели и ее использование, представлен  на рис. 5.2. -5.3.

 

 

Методы, применяемые для решения  задач классификации

Для классификации используются различные методы. Основные из них:

• классификация с помощью деревьев решений;

• байесовская (наивная) классификация;

• классификация при помощи искусственных  нейронных сетей;

• классификация методом опорных  векторов;

• статистические методы, в частности, линейная регрессия;

• классификация при помощи метода ближайшего соседа;

• классификация CBR-методом;

• классификация при помощи генетических алгоритмов.

Схематическое решение задачи классификации  некоторыми методами (при помощи линейной регрессии, деревьев решений и нейронных сетей) приведены на рис. 5.4 -5.6.

if X > 5 then grey

else if Y > 3 then orange

else if X > 2 then grey

else orange

Точность классификации: оценка уровня ошибок

Оценка точности классификации  может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) - это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.

Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например обучающее множество - две трети данных и тестовое

- одна треть данных. Этот способ  следует использовать для выборок  с большим количеством примеров. Если же выборка имеет малые  объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться.

Оценивание классификационных  методов

 

Оценивание методов следует  проводить, исходя из следующих характеристик [21]: скорость, робастность, интерпретируемость, надежность.

Скорость характеризует время, которое требуется на создание модели и ее использование.

Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.

Интерпретируемость обеспечивает возможность понимания модели аналитиком.

Свойства классификационных  правил:

• размер дерева решений;

 • компактность классификационных  правил.

Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Использованная литература:

1. Н. Кречетов. Продукты для интеллектуального  анализа данных. - Рынок программных  средств, N14-15_97, c.32-39.

2. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? - Tandem Computers Inc., 1996.

3. Boulding K. E. General Systems Theory - The Skeleton of Science//Management Science, 2, 1956.


Информация о работе Классификация данных методом Data Mining