Автор: Пользователь скрыл имя, 09 Апреля 2012 в 13:43, курсовая работа
Курсовая работа на тему OLAP технологии, расмотренны хранилище данных, средства OLAP-анализа, концепция хранилищ данных
Метаданные (или данные о данных) являются ключевым элементом в хранилище данных. Именно благодаря использованию метаданных хранилище становится гибким и удобным средством доставки информации для поддержки принятия решений. Они содержат полное описание логической и физической структуры данных, всех процессов загрузки данных, специализированных приложений для анализа и представления данных в определенных областях, а также дополнительную информацию обо всех элементах хранилища, помогающую легко ориентироваться в его сложной структуре.
Метаданными явно или неявно пользуются все группы пользователей хранилища, начиная с наименее подготовленных конечных пользователей, приложения для которых управляются метаданными, и кончая разработчиками и администратором хранилища.
Не удивительно поэтому, что средствам работы с метаданными уделяется такое серьезное внимание. По функциональным требованиям эти средства можно разделить на две основные группы: средства просмотра и поиска и средства создания и управления.
Для осуществления просмотра и поиска метаданных хранилища SAS Institute предлагает продукт MetaSpace Explorer, который предназначен для конечных пользователей и имеет следующую функциональность:
1) Навигация по объектам метаданных хранилища в различных разрезах (предметная область, тип, владелец и др.)
2) Навигация по распределенному хранилищу в разрезе серверов.
3) Поиск объектов хранилища данных по заданным критериям.
4) Отображение метаданных, связанных с объектами.
В качестве рабочего инструмента администратора хранилища данных и разработчиков создан продукт SAS/Warehouse Administrator, позволяющий осуществлять следующие операции:
1) Определять объекты хранилища, их атрибуты и взаимосвязи;
2) Задавать доступ к внешним источникам;
3) Описывать процедуры загрузки данных в хранилище;
4)Задавать физическую модель хранилища;
5) Выполнять процедуры загрузки;
6) Регламентировать выполнение процедур загрузки;
7) Генерировать метаданные автоматически;
8) Представлять структуру хранилища в удобной графической форме
Продукт SAS/Warehouse Administrator состоит из следующих основных компонент:
1) Warehouse Explorer (проводник по хранилищу) – позволяет создавать, редактировать, удалять, группировать и просматривать основные объекты хранилища данных. В их состав входят: описания внешних источников данных, предметные области и их логические структуры, таблицы детальных данных, таблицы агрегированных данных и многомерные базы данных (MDDB), витрины данных, информационные витрины и приложения, а также вспомогательные объекты. Также это средство позволяет задавать основные атрибуты хранилища: рабочие библиотеки, сервера данных и доступ к ним, список лиц, ответственных за эксплуатацию и разработку элементов хранилища.
2) Process Editor (редактор процессов) – позволяет задавать процедуры загрузки для всех элементов хранилища, от процедур выборки данных из внешних источников до обновления информации в информационных витринах и витринах данных, атрибуты выполнения этих процедур, задавать связи между объектами хранилища, графически представлять процесс загрузки любого объекта хранилища в виде дерева процессов.
3) Scheduler (планировщик) – позволяет регламентировать выполнение процессов загрузки хранилища данных. Включает поддержку распределенных хранилищ данных.
Продукт SAS/Warehouse Administrator имеет следующие возможности для расширения функциональности и настройки под конкретный проект:
1) MetaData API – программный интерфейс доступа к метаданным хранилища.
2) Scheduler API – программный интерфейс управления диспетчером загрузки.
3) Средства расширения функциональности – стандартный интерфейс вызова дополнительных средств работы с хранилищем данных. Расширения могут быть созданы группой разработчиков для удовлетворения специфических требований проекта. Ряд весьма полезных дополнительных средств расширения функциональности имеется в общем фонде разработок (ToolPool), который пополняется разработками из реальных проектов по всему миру и включает такие полезные расширения как средство автоматического создания документации хранилища данных, модули импорта описания структур данных из разнообразных CASE средств и другие.
Для принятия обоснованных решений необходимо, чтобы доставляемая информация была актуальной и непротиворечивой. Поэтому организация процесса регулярной загрузки данных в хранилище является важной задачей. Выделим основные этапы этого процесса:
1) Доступ к источникам данных.
2) Доставка на сервер репозитария хранилища.
3) Преобразование данных (унификация, изменение структуры и т.д.)
4) Проверка на корректность и очистка.
5) Агрегирование.
4.2.1 Доступ к источникам
SAS System предоставляет возможности доступа ко всем данным в организации независимо от места и формата хранения. Доступ осуществляется посредством семейства продуктов SAS/ACCESS, которые позволяют работать напрямую с данными таких известных СУБД как Oracle, Sybase, Informix, Rdb, DB2, ADABAS, SAP R/2 и R/3, Ingres и др., а также обеспечивают доступ к данным через интерфейсы ODBC и DDE и к файлам со стандартными форматами - VSAM, XLS, DIF, DBF, WKn и др. Всего SAS System имеет прямой доступ к более чем 40 различным форматам данных на 15 различных платформах.
Отличительной чертой SAS System является тот факт, что данные доступные через дескрипторы SAS/ACCESS для всех процедур, работающих с данными, не отличаются друг от друга и от собственного формата хранения SAS. Это свойство системы позволяет легко изменять форматы внешних источников данных, практически не внося никаких изменений в хранилище данных. Единственным изменением будет смена дескриптора доступа к внешним данным.
4.2.2 Доставка на сервер
При реализации хранилища данных для организации, автоматизированные системы которой работают на нескольких серверах и даже на разных платформах, процесс транспортировки данных может создавать определенные проблемы. SAS System функционирует на многочисленных платформах и имеет хорошо развитые средства межплатформенного общения. Продукты SAS/CONNECT и SAS/SHARE позволяют осуществлять сетевое взаимодействие между такими платформами как MVS, VM/CMS, различные UNIX, OpenVMS VAX & AXP, OS/2, Window, Windows NT, Macintosh и др.
4.2.3 Преобразование данных
Физическая структура хранилища данных часто сильно отличается от структуры источников. Основной причиной обычно является требования к эффективному исполнению запросов и прогнозируемое время отклика. Кроме изменения структуры, при интеграции данных из разных источников необходимо унифицировать форматы представления. В SAS System разработчику доступны следующие средства обработки и преобразования данных:
1) Data Step – эффективный 4GL язык обработки данных, разработка SAS Institute
2) SQL – стандартный язык обработки реляционных данных
3) IML – язык для работы с матрицами, в виде математической нотации
4) Различные специализированные процедуры обработки данных на основе эффективных алгоритмов сортировки (SORT), преобразования временных рядов (EXPAND), шкалирования (RANK) и пр.
4.2.4 Проверка на корректность и очистка
Одним из самых важных свойств хранилища данных является достоверность доставляемой информации. Ричард Хекатрон, один из пионеров концепции, охарактеризовал хранилище данных как «единый образ истины» для всей организации. Поэтому, проверка на непротиворечивость и корректность загружаемых данных, а также очистка и снятие противоречий является важным шагом загрузки хранилища данных.
Кроме простых и достаточно тривиальных процедур, легко реализуемых с помощью стандартных языков обработки данных, возникает необходимость определять данные, выпадающие из общего набора. SAS System включает в себя процедуры ANOVA для анализа дисперсий, REG , NREG и LOGISTIC для использования моделей линейной, нелинейной и логистической регрессии, MODEL для более сложных моделей, а также процедуры анализа на основе нейронных сетей. Эти процедуры входят в состав следующих продуктов Base SAS, SAS/STAT, SAS/OR и SAS/Enterprise Miner.
4.2.5 Агрегирование
Исследования, проведенные на работающих в промышленной эксплуатации хранилищах данных, показали, что 90% конечных пользователей нуждаются в сильно агрегированной информации, и лишь изредка возникает необходимость анализа информации детального уровня. Поэтому для обеспечения эффективности отрабатываемых запросов и обеспечения удовлетворительного времени отклика на них, часто используемые агрегированные показатели, которые рассчитываются заранее и включаются в состав хранилища. Для пользователей агрегированная информация, как правило, доступна в виде многомерных баз данных, которые создаются с помощью специальной процедуры MDDB. В зависимости от типа производимых вычислений SAS System предоставляет целый спектр процедур агрегирования, входящих в продукты Base SAS, SAS/ETS и SAS/MDDB Server.
Общая структура репозитария хранилища данных является в своем роде отражением главной цели его построения, а именно, максимально полно и быстро удовлетворить потребности пользователей в той или иной информации. В зависимости от потребностей пользователей можно выделить следующие основные типы информации:
Персональная информация – это информация, используемая пользователями со строго определенными обязанностями и информационными потребностями. Обычно требует большой предварительной обработки или, другими словами, имеет высокий уровень агрегации (под агрегацией мы будем понимать не только суммирование, но и другие преобразования данных производимых с помощью как аддитивных, так и не аддитивных статистик). Данные чаще всего хранятся в многомерных базах данных.
Информация по бизнес-темам – информация, относящаяся к определенной тематике, такой, например, как финансовая деятельность организации. Для организаций имеющих, близкие функциональные и организационные структуры, ее можно определить как информацию для подразделения (например, для финансовой службы). Имеет более широкий спектр, как в предметных областях, так и во времени, но в, то же время напрямую используется реже, чем персональная информация. Данные обычно хранятся в смешанных структурах: многомерных базах данных и реляционных таблицах.
Текущие детальные данные – самая подробная информация, доступная в хранилище данных. Рядовыми пользователями используется весьма редко, только в случае необходимости уточнения информации. Обычно является полем деятельности аналитиков по поиску знаний (или поиску скрытых зависимостей в больших объемах информации). Как правило, данные хранятся в реляционных структурах.
Старые детальные данные – по сути, это тот же (самый низкий) уровень агрегирования, что и у текущих детальных данных. Выделяется в особой тип по следующей причине. С одной стороны, детальные данные часто требуют больших ресурсов для хранения, а с другой детальные данные с возрастом, например, в несколько лет необходимы в очень редких случаях. Решением в данном случае является использование более дешевых и емких способов хранения, например, ленты или роботизированные библиотеки. Для SAS System доступ к таким данным не отличается от доступа к таблицам, хранящимся на диске, что делает реализацию такой схемы особенно легкой и предпочтительной. Единственным отличием в этом случае будет медленная скорость обращения к данным.
Обсуждение преимуществ, недостатков и особенностей использования ROLAP, MOLAP и HOLAP в последнее время стало любимым делом множества авторов (одной из причин этого, возможно является завораживающая магия звучания этих сокращений). Действительно, одним из основных средств представления информации в системах, построенных в технологии хранилищ данных, являются приложения OLAP (On-Line Analytical Processing) . Поэтому вопрос о выборе способа хранения данных для этих приложений не является праздным, хотя, увлекшись обсуждением форматов хранения, часто забывают о второй составляющей эффективноq работы – какие агрегированные данные хранить, а какие вычислять «на лету».
В SAS System приложения OLAP могут работать, как с реляционными таблицами (Relational OLAP, ROLAP), так и с многомерными базами данных (Multidimensional OLAP, MOLAP). Особое место занимает смешанный подход – гибридный OLAP (Hybrid OLAP, HOLAP), который является в SAS System не промежуточным решением между ROLAP и MOLAP, а их объединением. Таким образом, использование HOLAP в построении хранилищ данных позволяет гибко использовать все достоинства различных способов хранения данных, предоставляя конечному пользователю удобный и высокоэффективный механизм работы с данными хранилища.
Различные информационные требования пользователей хранилища данных приводят к необходимости распределенного хранения данных. При этом также необходимо учитывать, что существующая инфраструктура организации обычно бывает гетерогенной. Распределенность – вот ключевое слово реализации HOLAP в SAS System. С учетом богатых возможностей многоплатформенной архитектуры SAS System смешанный подход позволяет использовать достоинства как распределенного хранения (по платформам и форматам хранения), так и распределенной обработки данных.