Оперативный и интеллектуальный анализ данных

Автор: Пользователь скрыл имя, 19 Февраля 2013 в 10:56, курсовая работа

Описание работы

Цель данной работы – изучение учащимися технологий и средств операционной обработки, оперативного и интеллектуального анализа данных масштаба предприятия.
Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин "Business Intelligence" (BI), деловой интеллект или бизнес-интеллект. Этот термин, предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений (СППР).

Содержание

Введение
Информационно-аналитические системы:
Операционная обработка данных
Оперативный анализ данных
Интеллектуальный анализ данных
3. Концепции хранения данных
Организация реляционных баз данных
Организация хранилищ данных
Концепция многомерной модели данных
Службы SQL Server Analysis Services
Конструктор интеллектуального анализа данных
Мастер интеллектуального анализа данных
Создание структуры интеллектуального анализа

5. Заключение
6. Литературы

Работа содержит 1 файл

Курсовая работа.docx

— 245.75 Кб (Скачать)

На  пятом этапе процесса ИАД осуществляется исследование построенных моделей  и проверка их эффективности. Прежде чем развернуть модель в рабочей среде, необходимо проверить эффективность работы модели. Кроме того, возможно, было создано несколько моделей, и необходимо выяснить, какая из них наиболее эффективна. Если ни одна из моделей, созданных при выполнении этапа «Построение моделей», не обладает нужной эффективностью, может возникнуть необходимость вернуться к предыдущему этапу процесса и либо изменить постановку задачи, либо выполнить повторное изучение данных в исходном наборе данных.  Тренды и шаблоны, обнаруживаемые алгоритмами, можно исследовать при помощи средств просмотра в конструкторе интеллектуального анализа данных в среде BI Dev Studio. Точность прогнозов, создаваемых моделями, можно проверить при помощи таких средств конструктора, как диаграмма точности предсказаний и матрица классификации. Для этих средств требуются контрольные данные, выделенные из исходного набора данных во время выполнения шага построения модели.

Последним шагом процесса ИАД является развертывание  в рабочей среде наиболее эффективных  моделей. После развертывания в  рабочей среде моделей интеллектуального  анализа данных можно выполнять  множество различных задач, соответствующих  потребностям пользователя:

  • использовать модель для создания прогнозов, которые затем могут быть использованы для принятия решений;
  • внедрять функции ИАД непосредственно в приложение для создания, изменения, обработки и удаления структур, моделей;
  • использовать службы Integration Services для создания пакетов, в которых модель ИАД используется для интеллектуального распределения входящих данных по разным таблицам.
  • создавать отчеты, позволяюobt формировать прямой запрос в соответствии с текущей моделью ИАД.

Составной частью стратегии развертывания  моделей ИАД является их обновление с целью улучшения эффективности. Поэтому по мере накопления предприятием данных осуществляется редактирование моделей.

Основными задачами ИАД являются:

Классификация (Classification). Наиболее распространенная задача ИАД. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов (классы). По этим признакам новый объект можно отнести к тому или иному классу. Для решения задачи классификации могут использоваться методы: ближайшего соседа (Nearest Neighbor); k-ближайшего соседа (k-Nearest Neighbor);

Кластеризация (Clustering). Кластеризация является логическим продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.

Ассоциация (Associations). В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил – алгоритм Apriori.

Последовательность (Sequence). Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени. Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий. Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю.

Прогнозирование (Forecasting). В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применяются методы математической статистики..

Анализ отклонений (Deviation Detection). Данная задача решается с целью обнаружение и анализ данных, наиболее отличающихся от общего множества данных, т.е выявления нехарактерных шаблонов.

Концепции хранения данных

Современные информационные технологии основываются на концепции баз данных (БД). В соответствии с этой технологий основой информационных систем являются данные, которые накапливаются для удовлетворения информационных потребностей пользователя.

Данные  представляют накопленную информацию и позволяют автоматизировать процессы сбора, хранения и обработки. Под  задачами обработки данных принято  рассматривать класс решаемых на компьютере задач, связанных с форматом представления, хранением, сортировкой, отбором по заданному условию и группировкой записей однородной структуры. Основные понятия концепции БД следующие:

  • база данных: именованная совокупность данных, отражающая состояние объектов и их отношений в предметной области;
  • система управления БД (СУБД): совокупность языковых и программных средств, предназначенных для создания, ведения и совместного использования БД многими пользователями.

БД создаётся и работает совместно с системой управления (СУБД). В процессе реализации своих функций СУБД взаимодействует с БД и приложениями пользователей. Каждая группа пользователей имеет своё представление на БД. Для работы с конкретной БД, в том числе с целью оперативного и интеллектуального анализа данных, желательно знать описание и структуры (атрибуты, типы данных) таблиц, количество записей в таблице и связи между таблицами.

Организация реляционных баз данных

В настоящее  время реляционные БД занимают доминирующее положение. С математической точки  зрения реляционная БД представляет собой ограниченный набор конечных отношений различной арности  на множестве элементарных данных. Над отношениями можно осуществлять различные алгебраические операции. Теоретическое обоснование реляционной модели, выполненное Э.Коддом, отличается  использованием строгих принципов математики и точностью. Все данные в модели размещаются в таблицах.

Трехуровневая архитектура описания данных включает следующие уровни абстракции: внешний, внутренний и концептуальный (рисунок 2.1).

.

Рисунок 2.1 – Трехуровневая архитектура  описания БД

Представление БД с точки зрения пользователя является внешним уровнем представления. Каждый пользователь выделяет в моделируемой предметной области интересующие его сущности, атрибуты и связи. Формируя своё представление о предметной области, выражает их в наиболее удобной для себя форме. При этом одни и те же данные у различных пользователей могут отображаться  по-разному. Таким образом, каждый пользователь при работе имеет своё представление на БД ( ) и может использовать свой язык программирования запросов или специальный язык, поддерживаемый приложением.

Концептуальный уровень обеспечивает представление данных в абстрактной форме. Описание БД на концептуальном уровне является результатом концептуального проектирования и включает логическое описание всех элементов данных и отношений между ними, логическую структуру БД. Описание содержит объекты и их атрибуты, связи между объектами, ограничения, накладываемые на данные, семантическую информацию о данных, обеспечение безопасности и поддержку целостности данных. Концептуальный уровень поддерживает каждое внешнее представление: любые доступные пользователю данные должны содержаться на данном уровне.

На  внутреннем уровне область хранения данных представляется как бесконечное  линейное адресное пространство. Внутреннее представление описывает физическую реализацию БД  и содержит:

  • распределение дискового пространства для хранения данных;
  • описание подробностей сохранения записей;
  • сведения о размещении записей;
  • сведения о сжатии данных и выбранных методах их шифрования.

Осуществляется  взаимодействие СУБД с методами доступа  операционной системы на внутреннем уровне.

Структура БД OLTP-систем в высокой степени нормализована и состоит из множества таблиц, связанных между собой посредством внешних ключей. Нормализованная структура обеспечивает высокую производительность при поиске и обработке единичных записей.

Для дальнейших примеров воспользуемся учебным вариантом БД  Valuation Works, используемой при оценке деятельности преподавателей университета. Фрагмент логической структуры Valuation Works приведён на рисунке 2.2. Информация о преподавателях, включая фамилии, имена, паспортные данные и сведения о базовом образовании, храниться в таблице Teacher. Информация о кафедрах и факультетах университета собирается в таблицах Sub_faculty, Faculty.

Рисунок 2.2 – Структура Valuation Works

В таблице  Scientific_Teacher собирается информация о научной деятельности преподавателей, Educational_Teacher – учебной работе, Methodic_Teacher – учебно-методической работе. Информация о квалификации преподавателей собирается в таблице Quality_Teacher.

Организация хранилищ данных

Основой концепции хранилищ данных (ХД) является необходимость разделения наборов  данных, предназначенных для транзакционной обработки,   и наборов данных для анализа в системах поддержки принятия решений (СППР). Это разделение  осуществляется интеграцией, согласованием и агрегацией разъединенных данных из OLTP-систем и внешних источниках данных в ХД. Автор концепции W. Inmon определяет ХД как предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию средства хранения данных.

Концепция ХД обеспечивает единую модель представления  данных предприятия, организации и реализацию интегрированного источника данных. В соответствие с этой реализацией в ХД собираются данные из транзакционных БД и других источников. В ХД поддерживается хронология данных: сохраняются данные о времени. Концептуально модель ХД можно представить в виде схемы на рисунке 2.3. Данные из различных источников помещаются в ХД, а их описания в репозиторий метаданных. Пользователь, используя средства визуализации, построения отчетов, статистической обработки и другие, анализирует данные в хранилище. Выбор средств работы пользователя с ХД теоретически не должен влиять на его структуру и функции поддержания в актуальном состоянии. Физическая реализация приведённой концептуальной схемы может быть самой разнообразной.

Рисунок 2.3 – Концептуальная модель хранилища данных

Виртуальное ХД эмулируют работу с данными в информационной системе, как с хранилищем данных. Виртуальное ХД можно организовать, создав ряд «представлений» (view) в БД или применив специальные средства доступа. Главными достоинствами такого подхода являются простота и малая стоимость реализации, единая платформа с источником информации, отсутствие сетевых соединений между источником информации и ХД. Существенный недостаток в том, что создается не ХД как таковое, а иллюзия его существования. Структура хранения и само хранение не претерпевают изменений, и остаются проблемы с производительностью системы, трансформацией данных, интеграцией данных с другими источниками, отсутствие истории и чистоты данных, зависимость от характеристик основной БД.

Известна  двухуровневая архитектура ХД, предполагающая построение витрин данных (Data mart) без создания центрального хранилища. При этом вся информация, поступающая из OLTP-систем, ограничена конкретной предметной областью. При построении витрин данных используются основные принципы построения ХД, которые можно рассматривать как ХД в миниатюре. Достоинства этого подхода состоит в простоте и малой стоимости реализации, высокой производительности за счет физического разделения регистрирующих и аналитических систем, поддержке истории данных и возможности добавления метаданных. Концепция витрин данных предложена Forrester Research в 1991 году. Главная идея витрин данных – сохранение тематического подмножества заранее агрегированных данных. Размер тематического подмножества данных намного меньше множества данных ХД, что значительно снижает уровень требования к производительности компьютерной техники.

Построение  ХД предприятия, как правило, выполняется  в трехуровневой архитектуре. На первом уровне расположены разнообразные источники данных и справочные системы. Второй уровень ХД  содержит центральное хранилище и, возможно, оперативный склад данных.  В центральном хранилище консолидируется информация от всех источников с первого уровня. Оперативный склад данных не содержит исторических данных и выполняет две функции: хранения аналитической информации для оперативного управления и подготовки данных для последующей загрузки в центральное хранилище. Третий уровень ХД представляет собой набор предметно-ориентированных витрин данных, данные в которые загружаются  из центрального хранилища данных. Таким образом, ХД представляет собой предметно-ориентированное, интегрированное, связанное со временем и неизменное во времени собрание данных. Предметная ориентация коллекции данных означает, что данные отражают существенные аспекты деятельности организации. Интеграция данных предполагает собрание данных в целостную структуру, обеспечивающую анализ данных.

Концепция ХД в первую очередь ориентирована  на хранение данных и во вторую –  на обработку данных. Архитектура аналитических систем, в том числе СППР, не предопределяется концепцией ХД. Применение концепции позволяет проектировщику и разработчику сосредоточится на требованиях к данным с учетом функциональности аналитической системы.  Типичная структура ХД отличается от структуры реляционной СУБД. Как правило, структура ХД (витрины данных) не нормализована и может допускать избыточность данных.

Основными составляющими структуры хранилищ данных являются таблица фактов (Fact table) и таблицы измерений (Dimension tables).

Таблица фактов. Таблица фактов является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Обычно выделяют четыре встречающихся типа фактов:

Информация о работе Оперативный и интеллектуальный анализ данных