Автор: Пользователь скрыл имя, 26 Февраля 2013 в 17:32, реферат
Корпоративная база данных любого современного предприятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный объект или факт. Например, запись в таблице продаж отражает тот факт, что такой-то товар продан такому-то клиенту тогда-то таким-то менеджером, и по большому счету ничего, кроме этих сведений, не содержит. Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно — сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными.
1) Классификация данных методом Data Mining
2) Методы исследования данных в Data Mining
3) Задача классификации
4) Задача классификации 2
5) Задача классификации 3
6) Задача классификации 4
7) Точность классификации: оценка уровня ошибок
8) Использованная литература
Использование модели: классификация
новых или неизвестных значений
Оценка правильности (точности) модели.
Известные значения из
Уровень точности -процент правильно классифицированных примеров в тестовом множестве.
Тестовое множество, т.е.
Если точность модели
Задача классификации 5
Процесс классификации, а именно, конструирование модели и ее использование, представлен на рис. 5.2. -5.3.
Методы, применяемые для решения задач классификации
Для классификации используются различные методы. Основные из них:
• классификация с помощью
• байесовская (наивная) классификация;
• классификация при помощи искусственных нейронных сетей;
• классификация методом опорных векторов;
• статистические методы, в частности, линейная регрессия;
• классификация при помощи метода ближайшего соседа;
• классификация CBR-методом;
• классификация при помощи генетических алгоритмов.
Схематическое решение задачи классификации некоторыми методами (при помощи линейной регрессии, деревьев решений и нейронных сетей) приведены на рис. 5.4 -5.6.
if X > 5 then grey
else if Y > 3 then orange
else if X > 2 then grey
else orange
Точность классификации: оценка уровня ошибок
Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) - это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.
Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например обучающее множество - две трети данных и тестовое
- одна треть данных. Этот способ
следует использовать для
Оценивание классификационных методов
Оценивание методов следует проводить, исходя из следующих характеристик [21]: скорость, робастность, интерпретируемость, надежность.
Скорость характеризует время, которое требуется на создание модели и ее использование.
Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.
Интерпретируемость
Свойства классификационных правил:
• размер дерева решений;
• компактность
Надежность методов
Использованная литература:
1. Н. Кречетов. Продукты для
2. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? - Tandem Computers Inc., 1996.
3. Boulding K. E. General Systems Theory - The Skeleton of Science//Management Science, 2, 1956.
Информация о работе Классификация данных методом Data Mining