Оперативный и интеллектуальный анализ данных

Автор: Пользователь скрыл имя, 19 Февраля 2013 в 10:56, курсовая работа

Описание работы

Цель данной работы – изучение учащимися технологий и средств операционной обработки, оперативного и интеллектуального анализа данных масштаба предприятия.
Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин "Business Intelligence" (BI), деловой интеллект или бизнес-интеллект. Этот термин, предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений (СППР).

Содержание

Введение
Информационно-аналитические системы:
Операционная обработка данных
Оперативный анализ данных
Интеллектуальный анализ данных
3. Концепции хранения данных
Организация реляционных баз данных
Организация хранилищ данных
Концепция многомерной модели данных
Службы SQL Server Analysis Services
Конструктор интеллектуального анализа данных
Мастер интеллектуального анализа данных
Создание структуры интеллектуального анализа

5. Заключение
6. Литературы

Работа содержит 1 файл

Курсовая работа.docx

— 245.75 Кб (Скачать)
  • факты, связанные с транзакциями (Transaction facts). Они основаны на отдельных событиях;
  • факты, связанные с «моментальными снимками» (Snapshot facts). Основаны на состоянии объекта;
  • факты, связанные с элементами документа (Line-item facts). Основаны на том или ином документе;
  • факты, связанные с событиями или состоянием объекта (Event or state facts), представляюobt возникновение события без подробностей.

Таблица фактов, как правило, содержит уникальный составной ключ, объединяющий первичные  ключи таблиц измерений. Чаще всего  это целочисленные значения либо значения типа «дата/время» — ведь таблица фактов может содержать сотни тысяч или даже миллионы записей, и хранить в ней повторяющиеся текстовые описания, как правило, невыгодно — лучше поместить их в меньшие по объему таблицы измерений. При этом как ключевые, так и некоторые неключевые поля должны соответствовать будущим измерениям OLAP-куба. Помимо этого таблица фактов содержит одно или несколько числовых полей, на основании которых в дальнейшем будут получены агрегатные данные.

Таблица фактов, которая может быть построена  на основе БД Valuation Works, приведена на рисунке 2.4. В рассматриваемом примере измерениям будущего куба соответствуют первые шесть полей, а агрегатным данным — последние четыре. В таблице фактов нет никаких сведений о том, как группировать записи при вычислении агрегатных данных. В ней есть идентификаторы продуктов или клиентов. Эти сведения, в дальнейшем используемые для построения иерархий в измерениях куба, содержатся в таблицах измерений.

Рисунок 2.4 – Пример таблицы фактов

Таблицы измерений содержат неизменяемые либо редко изменяемые данные. В подавляющем большинстве случаев эти данные представляют собой по одной записи для каждого члена нижнего уровня иерархии в измерении. Таблицы измерений также содержат как минимум одно описательное поле (обычно с именем члена измерения) и, как правило, целочисленное ключевое поле (обычно это суррогатный ключ) для однозначной идентификации члена измерения. Если будущее измерение, основанное на данной таблице измерений, содержит иерархию, то таблица измерений также может содержать поля, указывающие на «родителя» данного члена в этой иерархии. Таблица измерений может содержать и поля, указывающие на «прародителей», и иных «предков» в данной иерархии. Каждая таблица измерений должна находиться в отношении «один ко многим» с таблицей фактов (рисунок 2.5).

 

Рисунок 2.5 – Пример таблицы измерений

Одно  измерение куба может содержаться  как в одной таблице, так и  в нескольких связанных таблицах, соответствующих различным уровням  иерархии в измерении (рисунок 2.6). Если каждое измерение содержится в одной таблице, такая схема хранилища данных носит название «звезда».

Рисунок 2.6 – Пример схемы «снежинка»

Если  же хотя бы одно измерение содержится в нескольких связанных таблицах, такая схема хранилища данных носит название «снежинка». Дополнительные таблицы измерений в такой схеме, обычно соответствующие верхним уровням иерархии измерения и находящиеся в соотношении «один ко многим» в главной таблице измерений, соответствующей нижнему уровню иерархии, иногда называют консольными таблицами (рисунок 2.6). Даже в случае иерархических измерений в модели данных с целью повышения скорости выполнения запросов к ХД нередко предпочтение отдается схеме «звезда».

Концепция многомерной модели данных

В службах SQL Server Analysis Services используется унифицированная  многомерная модель данных (Unified Dimensional Model, UDM). Эта модель позволяет различным клиентским приложениям получить доступ к данным из реляционных и многомерных БД без применения различных моделей (рисунок 2.7). Роль унифицированной многомерной модели заключается в создании моста между пользователем и источниками данных. Модель UDM конструируется на одном или нескольких источниках данных. Пользователь запрашивает модель UDM при помощи различных клиентских средств, например Microsoft Excel.

Рисунок 2.7 – Многомерная модель данных

Конечному пользователю это дает определенные преимущества, даже если модель UDM конструируется только как тонкий слой над источником данных: проще и легче можно понять модель данных; обеспечивается изоляция от гетерогенных серверных источников данных; повышается производительность при обработке запросов обобщенного типа. В некоторых сценариях простая модель UDM может конструироваться автоматически. Дополнительные вложения в создание унифицированной многомерной модели могут обеспечить дополнительные преимущества, вытекающие из богатства метаданных, которые может предоставить эта модель. Преимущества унифицированной многомерной модели данных:

  • значительно обогащает пользовательскую модель;
  • обеспечивает высокую производительность запросов, поддерживая интерактивный анализ даже на очень больших объемах данных;
  • использует в модели бизнес-правила для поддержки более содержательного анализа данных;
  • поддерживает «закрытие цикла»: пользователям позволяется действовать с данными, которые они видят на экране монитора.

Многомерная модель данных определяет представление  данных на трех уровнях: концептуальной модели; физической модели; прикладной модели.

В терминах концептуальной модели пользователь описывает  данные организации (предприятия): структуру  и организацию данных; правила  доступа; методы расчётов и преобразований. Модель используется в качестве моста между моделью предметной области и многомерной моделью данных. Для описания концептуальной модели используется Язык Описания Данных (Data Definition Language, DDL) и язык сценариев (Multidimensional Expressions, MDX).

Физическая  модель основывается на концептуальной модели. Как и в случае реляционных  БД, физическая модель определяет условия  хранения данных на физических носителях:

• место хранения: тип файлов с данными, носитель информации, размещение носителя;

• способ хранения: в сжатом или несжатом виде, вид индексирования;

• правила доступа  к данным, организацию кеширования данных, способ занесения и извлечения данных из памяти.

Для хранения всех видов информации в службах Analysis Services используется структура данных, называемая накопителем данных (Data store). Данные в накопителе сервера разделены и структурированы (рисунок 2.8). Основными элементами накопителя является поля, поддерживающие различные числовые типы данных размером от 1 до 8 байтов, а также строковые типы данных. Поля группируются в записи, содержащие набор данных для всех полей. Поле может быть помечено как пустое, т.е. содержащее значение null. В конце каждой записи для каждого потенциально пустого поля (столбца) добавляется один бит для указания пустого поля.

При передаче данных аналитическим приложениям  прикладная модель также определяет их формат. Клиентское приложение непосредственно  взаимодействует с прикладной моделью  данных. Прикладная модель разрабатывается с применением Языка MDX. Посредством MDX выполняется описание модели формирования данных с включением MDX-сценариев (MDX Scripts) и представлений запросов к многомерной БД,

 Рисунок 2.8 – структура записей  и страниц

В многомерных  БД для описания данных используется понятие многомерного пространства. В отличие от геометрического пространства многомерное пространство дискретно и содержит дискретное количество значений на каждом измерении. Пространство данных может иметь любое количество измерений. Для описания многомерного пространства используются следующие термины:

  • измерение (dimension), описывающее элемент данных для анализа;
  • элемент (member): соответствует одной точке на измерении.
  • значение элемента (member value): уникальная характеристика элемента;
  • атрибут (attribute): полная коллекция элементов одного типа;
  • размер (size) или кардинальность (cardinality) измерения: количество элементов, которое содержит измерение.

 

Службы SQL Server Analysis Services

Службы  Microsoft SQL Server Analysis Services для быстрого, нисходящего ИАД множества данных на основе унифицированной модели данных UDM. Результаты анализа могут доставляться пользователям на нескольких национальных языках, с пересчетом на разные валюты. Службы Analysis Services могут применяться для работы с хранилищами оперативных данных, производственными базами данных с предысторией и поступающих в реальном масштабе времени

Конструктор интеллектуального анализа данных

 

Конструктор ИАД предназначен для работы с  моделями анализа данных в службах Analysis Services. Доступ к конструктору можно получить, выбрав элемент существующей структуры ИАД или создав новую структуру,  модель ИАД при помощи мастера ИАД. Конструктор ИАД можно использовать для выполнения следующих задач.

  • Изменение структуры и модели ИАД, ранее созданных при помощи мастера ИАД;
  • Создание новых моделей на основе существующей структуры ИАД;
  • Обучение и просмотр моделей ИАД;
  • Сравнение моделей при помощи диаграммы точности;
  • Создание прогнозирующих запросов на основе моделей ИАД.

Элемент структуры ИАД содержит одну структуру  и все связанные с нею модели ИАД. Модели могут отличаться типом  алгоритма, значениями параметров и  столбцами, взятыми из структуры  ИАД. Поскольку все связанные модели находятся в одной структуре, их производительность можно сравнить, используя диаграмм точности.

Каждый  раз, когда новая модель ИАД добавляется в проект для определения новой структуры, содержащей столбцы, с которыми работают связанные модели ИАД, используется мастер ИАД. Конструктор ИАД откроется на вкладке «Структура интеллектуального анализа данных», имеющей две области: представление источника данных и столбцы структуры. В области представления источника данных отображаются таблицы, содержащие представление источника данных. Кроме того, эта область применяется для просмотра данных, содержащихся в представлении, и для доступа к конструктору источников данных. Левая область содержит список столбцов (в виде дерева) в выбранной структуре интеллектуального анализа. Структуру ИАД можно изменять, добавляя или удаляя столбцы и вложенные таблицы. Выбрав столбец, можно изменить его свойства в окне Свойства. Эта вкладка также позволяет обработать структуру ИАД и связанные с ней модели.

 Вкладка Модели интеллектуального анализа данных предназначена для управления существующими моделями ИАД и создания новых моделей. Модели ИАД основаны на структуре, определенной при помощи мастера ИАД, которая отображается на вкладке Структура интеллектуального анализа данных. Основная контактная зона вкладки Модели интеллектуального анализа данных занимает сетка со строками для каждого столбца в структуре интеллектуального анализа. Первый столбец сетки содержит имена столбцов. Все остальные столбцы сетки представляют модель интеллектуального анализа, которая связана со структурой. Каждая строка в столбце модели ИАД описывает, каким образом модель использует столбец структуры интеллектуального анализа, связанный с этой строкой.

На  вкладке Модели интеллектуального анализа данных можно изменить тип алгоритма, добавить или удалить столбцы, связанные со структурой ИАД, настроить характерные для каждого алгоритма свойства столбца, определить использование столбца модели ИАД и настроить параметры алгоритма, связанные с моделью ИАД. Кроме того, можно обработать структуру ИАД вместе с выбранными или всеми связанными моделями.

Вкладка Средство просмотра модели интеллектуального анализа применяется для визуального изучения моделей ИАД. Каждая модель ИАД связана с пользовательским средством просмотра, которое отображает характерное для модели содержимое. Модель ИАД также можно изучать с помощью средств просмотра содержимого.

Вкладка Диаграмма точности интеллектуального анализа позволяет проверить точность прогнозов отдельной модели ИАД или сравнить эффективность нескольких моделей из одной структуры ИАД. Вкладка содержит средства для фильтрации данных, выбора моделей ИАД и отображения результатов в виде диаграммы точности прогнозов, диаграммы прибыльности или матрицы классификации.

 Вкладка Прогноз модели интеллектуального анализа содержит построитель прогнозирующих запросов, который применяется для создания запроса прогнозов расширений ИАД. Эти средства позволяют указать модели ИАД и входные таблицы, сопоставить столбцы модели ИАД столбцам во входных таблицах, добавить функции в запрос и указать условие для каждого столбца. После построения запроса можно использовать различные средства просмотра вкладки для проверки результатов запроса и изменения запроса вручную. Результат запроса можно сохранить в таблицу базы данных.

Мастер  интеллектуального анализа данных

 

Мастер  ИАД данных в службах Analysis Services запускается каждый раз при добавлении новой структуры ИАД к проекту интеллектуального анализа данных. Мастер помогает определить новые структуры ИАД и выбирает источники данных, которые будут использованы для ИАД. Мастер также может разбить данные структуры ИАД на обучающие и проверочные наборы и для каждой структуры позволяет добавить исходную модель ИАД.

Содержимое  структуры ИАД выводится на основе существующего представления источника  данных или куба. Мастер предлагает выбрать столбцы для включения  в структуру ИАД. Эти столбцы  могут использоваться всеми моделями на основе данной структуры. Можно также позволить пользователям модели ИАД детализировать результаты модели углублением с целью просмотра дополнительных столбцов структуры ИАД, не включенных в саму модель.

Во  время создания структур и моделей  ИАД с помощью мастера ИАД  можно принять следующие решения:

Информация о работе Оперативный и интеллектуальный анализ данных