Оперативный и интеллектуальный анализ данных

Автор: Пользователь скрыл имя, 19 Февраля 2013 в 10:56, курсовая работа

Описание работы

Цель данной работы – изучение учащимися технологий и средств операционной обработки, оперативного и интеллектуального анализа данных масштаба предприятия.
Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин "Business Intelligence" (BI), деловой интеллект или бизнес-интеллект. Этот термин, предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений (СППР).

Содержание

Введение
Информационно-аналитические системы:
Операционная обработка данных
Оперативный анализ данных
Интеллектуальный анализ данных
3. Концепции хранения данных
Организация реляционных баз данных
Организация хранилищ данных
Концепция многомерной модели данных
Службы SQL Server Analysis Services
Конструктор интеллектуального анализа данных
Мастер интеллектуального анализа данных
Создание структуры интеллектуального анализа

5. Заключение
6. Литературы

Работа содержит 1 файл

Курсовая работа.docx

— 245.75 Кб (Скачать)

АГЕНТСТВО СВЯЗИ И ИНФОРМАТИЗАЦИИ РЕСПУБЛИКИ УЗБЕКИСТАН

 

ФЕРГАНСКИЙ ФИЛИАЛ ТАШКЕНТСКОГО УНИВЕРСИТЕТА

ИНФОРМАЦИОННЫХ  ТЕХНОЛОГИЙ

 

 

 

 

По предмету: ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ

                                         ДАННЫХ

На тему: ОПЕРАТИВНЫЙ И ИНТЕЛЛЕКТУАЛЬНЫЙ

   АНАЛИЗ ДАННЫХ

 

 

 

Подготовил:                                                             __________________________

 

Принял:                                                                       __________________________

 

 

 

Фергана-2013

 

План

 

  1. Введение
  2. Информационно-аналитические системы:
    • Операционная обработка данных
    • Оперативный анализ данных
    • Интеллектуальный анализ данных

3.  Концепции хранения данных

  • Организация реляционных баз данных
  • Организация хранилищ данных 
  • Концепция многомерной модели данных 
  1. Службы SQL Server Analysis Services
  • Конструктор интеллектуального анализа данных

  • Мастер интеллектуального анализа данных

  • Создание структуры интеллектуального анализа

 

5. Заключение

6. Литературы

 

 

 

 

Введение

Данная  курсовая работа посвящена теме операционной обработки, оперативного  и интеллектуального  анализа данных в информационных системах различного назначения. Обсуждаются  технологии и средства обработки, анализа  данных масштаба предприятия.

Цель данной работы – изучение учащимися технологий и средств операционной обработки, оперативного и интеллектуального анализа данных масштаба предприятия.

Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин "Business Intelligence" (BI), деловой интеллект или бизнес-интеллект. Этот термин, предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений (СППР). В 1996 году агентство уточнило определение данного термина. Business Intelligence - программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений

 

 

 

Информационно-аналитические  системы

 

Понятие информационно-аналитические системы объединяет в себе различные средства и технологии анализа и обработки данных масштаба предприятия. На основе этих средств создаются информационно-аналитические системы, цель которых - повысить качество информации для принятия управленческих решений. информационно-аналитические системы также известны под названием Decision Support System (DSS). Эти системы превращают данные в информацию, на основе которой принимаются решения. Агенство Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов:

• средства построения хранилищ данных (Data warehousing);

• системы оперативной аналитической обработки (OLAP);

• информационно-аналитические системы (Enterprise Information Systems, EIS);

• средства интеллектуального анализа данных (Data mining);

• инструменты для выполнения запросов и построения отчетов (Query and reporting tools).

Как показано на рисунке 1.1, эти вопросы можно соотнести с тремя основными компонентами: сервер хранилища данных (Data Warehouse, DW), инструментарий оперативной аналитической обработки и добычи данных и инструменты для пополнения хранилищ данных (ХД).

Рисунок 1.1 – Архитектура систем поддержки принятия решений

ХД содержат информацию, собранную из нескольких операционных баз данных (БД). Объем  данных в ХД, как правило, на порядок  больше объёма операционных БД и может  достигать сотен гигабайт или  нескольких терабайт. Как правило, хранилище  данных поддерживается независимо от оперативных баз данных организации, поскольку требования к функциональности и производительности аналитических  приложений отличаются от требований к транзакционным системам. ХД создаются  специально для приложений поддержки  принятия решений и предоставляют  накопленные за определенное время, сводные и консолидированные  данные, которые более приемлемы  для анализа, чем детальные индивидуальные записи. Рабочая нагрузка ХД состоит  из нестандартных, сложных запросов к миллионам записей. При выполнении запросов осуществляется огромное количество операций сканирования, соединения и  агрегирования. Поэтому время ответа на запрос в ХД значительно важнее, чем пропускная способность.

Поскольку конструирование ХД представляет собой  сложный процесс, который может  занять несколько лет, некоторые  организации вместо этого строят витрины данных (Data mart), содержащие информацию для конкретных подразделений. Инструментарий оперативной аналитической обработки и добычи данных позволяет проводить развернутый анализ информации. Базовые инструменты, включая средства извлечения, преобразования и загрузки, служат для пополнения хранилища из внешних источников данных.

Операционная обработка данных

 

Информационные  системы, ориентированные на операционную (транзакционную) обработку данных, называют термином «ON-Line Transaction Processing, OLTP», что в переводе означает «оперативная транзакционная обработка данных».

В соответствии с современными требованиями к OLTP, в SQL Server 2008 уделяется основное внимание следующим аспектам:

  • Производительность и масштабируемость, позволяющие предприятиям создавать БД, обеспечивающие эффективность применения информационных систем;
  • высокая доступность данных, обеспечивающая непрерывность функционирования приложений, работающих с БД и минимум административных издержек;
  • безопасность хранения данных, обеспечиваемая шифрованием важных данных, аудитом модификации данных и метаданных, применением внешних криптографических ключей;
  • управляемость данных, позволяющая снизить затраты времени и средств на управление инфраструктурой обработки и хранения данных за счет применения инновационных технологий администрирования.

 

Оперативный анализ данных

Накопленные в организации данные содержат историю  развития организации и составляют уникальный ресурс. При анализе этих данных можно получить ценную информацию для принятия управленческих решений. Эффект от анализа возрастает, если использовать данные всего предприятия, накопленные в течение длительного  времени. Анализ данных посредством  готовых отчётных форм, свойственных OLTP-системам, в этом случае будет  не эффективен. Для решения данной проблемы и была разработана концепция  ХД. В соответствие с данной концепцией хранилище содержит данные, поступающие  от разных источников, и интегрированные  данные, получаемые в результате обработки  первичных данных. Кроме того, для  поддержки концепции ХД требуются  специальные средства управления процессами хранения и обработки данных. 

Концепция OLAP (On-line analytical processing) разработана  автором реляционных БД E.F.Codd в 1993 году. В 1995 году на основе требований, изложенных Коддом, сформулирован тест FASMI (Fast Analysis of Shared Multidimensional Information), который переводится как «быстрый анализ разделяемой многомерной информации. Тест FASMI включает следующие требования к приложениям для многомерного анализа:

• предоставление пользователю результатов анализа за приемлемое время (не более 5 с) при допустимом уровне детализации анализа;

• возможность осуществления любого логического и статистического анализа, поддерживаемого используемым приложением, и сохранением результатов в доступном для пользователя виде;

• многопользовательский  доступ к данным с поддержкой соответствующих  механизмов блокировки и средств  автоматизированного доступа;

• многомерное  концептуальное представление данных, включая полную поддержку для  иерархий и множественных иерархий измерений (ключевое требование OLAP);

• возможность обращаться к любой нужной информации независимо от её объёма и места хранения.

В основе концепции OLAP лежит принцип многомерного представления данных. Данные представляются в виде многомерного куба.

 

Интеллектуальный  анализ данных

Интеллектуальный  анализ данных (ИАД) определяется как  «извлечение зёрен знаний из гор  данных» или «разработка данных – по аналогии с разработкой полезных ископаемых».  В английском языке существует два термина, переводимые как ИАД: Knowledge Discovery in Databases (KDD) и Data Mining (DM). Таким образом, ИАД рассматривается как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей .

На  первом этапе развития ИАД инструментальные средства разрабатывались с учётом размещения анализируемых данных в  реляционных БД. Однако анализ данных, хранимых в системах OLAP в форме реального или виртуального информационного гиперкуба, в большинстве случаях оказывается более эффективным. Большинство методов ИАД разработано в рамках теории искусственного интеллекта и принято рассматривать его как процесс поддержки принятия решений с использованием поиска в данных скрытых закономерностей (информационных шаблонов). ИАД часто описывается как процесс извлечения допустимых, достоверных данных и данных с быстрым доступом из крупных БД. Другими словами, в процессе ИАД извлекают шаблоны и тренды, существующие в данных. Такие шаблоны и тренды могут быть собраны воедино и определены как модель интеллектуального анализа данных. Модели интеллектуального анализа данных могут применяться в условиях торгово-закупочной, производственной и другой деятельности:

  • прогнозирования продаж и определения продуктов, которые с высокой долей вероятности могут быть проданы вместе;
  • определения продуктов, которые с высокой долей вероятности могут быть проданы вместе;
  • выявление последовательностей в том порядке, в котором клиенты добавляют продукты в корзину для покупок;
  • контроля и управления учебной, научной и воспитательной работой преподавателей учебного заведения.

Построение  модели ИАД является составной частью более масштабного процесса.  Этот процесс может быть разделён на шесть базовых этапов. На рисунке 1.2 представлена диаграмма, отражающая последовательность этапов и технологии Microsoft SQL Server, используемые при ИАД. Как видно из приведённой диаграммы, создание модели ИАД представляет собой динамический итеративный процесс.

Первым  этапом процесса ИАД является определение постановки решаемой задачи. Этап включает анализ требований, определение масштаба проблемы, критериев оценки модели и определение цели ИАД.

Рисунок 1.2 – Диаграмма анализа данных

На  втором этапе процесса ИАД выполняется объединение и очистка данных, определенных на первом этапе. Службы SQL Server 2008 Integration Services (SSIS) содержат все средства, необходимые для осуществления данного этапа, включая преобразования для очистки и объединения данных. Данные могут храниться в различных БД и форматах, содержать ошибки согласования, т.е. дефектные или отсутствующие записи. Поэтому, прежде чем перейти к разработке модели, необходимо устранить эти несоответствия. Первым этапом процесса ИАД является определение и постановка решаемой задачи. Этот этап включает анализ требований, определение масштаба проблемы, критериев оценки модели и определение цели интеллектуального анализа данных.

Третий  этап процесса ИАД связан с просмотром и исследованием подготовленных данных. Методы исследования включают в себя расчет минимальных и максимальных значений, расчет средних и стандартных  отклонений и изучение распределения  данных. После исследования данных можно определить, содержит ли набор  данных дефектные данные или нет, а затем разработать стратегию  по устранению несоответствий. Для  просмотра и исследования данных можно использовать средства конструктора представлений источников данных BI Development Studio.

Четвертым этапом процесса ИАД является построение модели. Перед построением модели, рекомендуется случайным образом  разделить подготовленные данные в отдельные наборы обучающих и контрольных данных. Набор обучающих данных используется для построения модели, а контрольный набор данных — для проверки точности модели путем создания прогнозирующих запросов. Для разделения данных можно использовать службы SQL Server Integration Services. Знания, полученные при просмотре данных, позволяют определить и создать модель интеллектуального анализа данных. Обычно модель содержит входные столбцы, идентифицирующий столбец и прогнозируемый столбец. Данные столбцы можно затем определить в новой модели при помощи языка расширений интеллектуального анализа данных или мастера интеллектуального анализа данных в среде BI Dev Studio.

После определения структуры модели интеллектуального  анализа данных выполняется ее обработка  и наполнение пустой структуры шаблонами, описывающими модель. Данный процесс  известен как обучение модели. Шаблоны выявляются путем применения в отношении исходных данных математического алгоритма. Для каждого типа модели, доступной для построения, аналитические службы SQL Server содержат отдельный алгоритм. Настройка алгоритмов может осуществляться заданием значений  параметров.

Информация о работе Оперативный и интеллектуальный анализ данных