Автор: Пользователь скрыл имя, 21 Февраля 2013 в 17:34, реферат
Во время жизненного цикла корпорации накапливают большие объемы данных, которые несут в себе потенциальные возможности по получению новой аналитической информации. На основе полученной информации необходимо строить стратегию фирмы, выявлять тенденции развития рынка, находить новые решения, обусловливающие успешное развитие в условиях конкурентной борьбы.
Во время жизненного цикла корпорации накапливают большие объемы данных, которые несут в себе потенциальные возможности по получению новой аналитической информации. На основе полученной информации необходимо строить стратегию фирмы, выявлять тенденции развития рынка, находить новые решения, обусловливающие успешное развитие в условиях конкурентной борьбы.
Хранилище данных (ХД) - предметно-ориентированный,
интегрированный, неизменчивый, поддерживающий
хронологию набор данных, организованный
для целей поддержки
По аналогии с реальными хранилищами, в хранилищах данных имеются большие области для сбора, хранения или перемещения существующих данных. Понятие "хранение данных" возникло, в середине 1980-х гг., и предназначалось для описания архитектурной модели потока данных от операционной системы к средствам поддержки принятия решений. Без такой архитектурной модели передаваемая управляющая информация обычно содержит большое количество избыточных данных.
В больших корпорациях
Автоматизированная информационная система (ИС) с БД, будучи средством удовлетворения потребностей пользователей в информации как производственном ресурсе, работает с потоками информации, выраженными в потоках данных и операциях с ними. Как было указано выше, основной акцент на ранних стадиях эксплуатации ИС с БД строился на операционной концепции работы с данными. ИС, грубо говоря, должна была быстро и адекватно "переварить" поток данных для решения поставленных перед ней задач с помощью унифицированного набора операций манипулирования данными. Обработка данных сводилась к операциям вставки, удаления и обновления. Совместное действие этих операции в рамках ИС приводило к конфликтам в данных - потерям данных, ошибкам в обновлении и т.д. - так называемым аномалиям в данных. Предложив реляционную модель (которая является достаточно строго математической, а, следовательно, приемлемо контролируемой моделью), Е. Кодд в целом решил ряд проблем и задач операционной обработки данных. Создание реляционных СУБД позволило достаточно
На практике данные в операционных системах могут содержаться столь угодно долго, сколь в них имеется потребность. Несмотря на то, что производители жестких дисков постоянно увеличивают объемы этих дисков, хранить редко используемую информацию не имеет смысла по той простой причине, что производительность многих запросов с ростом объема данных начинает падать и совершенствование подсистем оптимизации запросов СУБД решает проблему ухудшения производительности запросов лишь отчасти. В целом с накоплением данных производительность обработки данных продолжает ухудшаться (эффект больших объемов).
Работа с архивом как чистой
копией массива данных операционной
системы обработки данных не решает
проблему производительности. Отсюда
простой практический ход - разделить
решение задач обработки
Фундаментальные требования к разработке операционных систем обработки данных и систем анализа данных различны: операционным системам нужна производительность, в тот время как системам анализа данных нужны гибкость и широкие возможности для получения результата. Это противоречие в целевой направленности двух классов систем обработки данных явилось одной из основных предпосылок разработки концепции складирования данных
Основной побудительный мотив разработки концепции систем складирования данных, следующий из опыта решения задач анализа на данных операционных систем обработки данных
Создание новой концепции
Ральф Кинболл (автор концепции хранилищ данных) описывал хранилища данных как «место, где люди могут получить доступ к своим данным». Он же сформулировал основные требования к хранилищам данных:
-поддержка высокой скорости данных из хранилища;
-поддержка внутренней
-возможность получения и
-наличие удобных утилит
-полнота и достоверность
-поддержка качественного
Всем перечисленным
1)Обычная база данных
2)Обычная база данных
-данные в нем обновляются согласно расписанию (например, ежечасно, ежедневно, ежемесячно),
-в идеале, процесс пополнения
данными за определенный
3)Обычная база данных чаще
всего является источником
Согласно исследованию META Group, 90 - 95% компаний списка Fortune 2000 активно применяют хранилища данных, чтобы добиться преимущества в конкурентной борьбе и получить значительно большую отдачу от своих инвестиций. Трехлетнее изучение опыта 62 организаций, проведенное International Data Corporation (IDC) показало, что эти организации в среднем получили 400-процентный возврат своих инвестиций в СППР-системы [4, с.24]. Перечислим главные преимущества хранилищ данных:
- Единый источник информации: компания
получает выверенную единую
- Производительность: физические
структуры хранилища данных
- Быстрота разработки: специфическая
логическая организация
- Интегрированность: интеграция данных из разных источников уже сделана, поэтому не надо каждый раз производить соединение данных для запросов, требующих информацию из нескольких источников. Под интеграцией понимается не только совместное физическое хранение данных, но и их предметное, согласованное объединение; очистку и выверку при их формировании; соблюдение технологических особенностей и т.д.
- Историчность и стабильность:
OLTP-системы оперируют с
Хранилища данных требуют и одновременно
обеспечивают всестороннюю поддержку
очистки данных. Они загружают
и постоянно обновляют огромные
объемы данных из различных источников,
поэтому вероятность попадания
в них "грязных данных" весьма
высока. Более того, хранилища данных
используются в процессе принятия решений,
следовательно, чтобы некорректные
данные не привели к некорректным
выводам, необходимо проводить корректировки
таких данных. Например, дублирующаяся
или утраченная информация может
стать причиной некорректной или
неадекватной статистики ("мусор
на входе - мусор на выходе"). Ввиду
большого спектра возможных
В состав хранилища данных, как правило, входит:
виртуальное хранилище данных;
витрины данных;
глобальное хранилище данных;
многоуровневая архитектура
В основе виртуального хранилища данных лежит репозиторий метаданных, который описывается источниками информации. Непосредственный доступ к последним обеспечивает программное обеспечение промежуточного слоя. В этом случае избыточность данных нулевая. Конечные пользователи фактически работают с транзакционными системами напрямую со всеми вытекающими отсюда плюсами (доступ к не агрегированным данным в реальном времени) и минусами (интенсивный сетевой трафик, снижение производительности OLTP-систем и реальная угроза их работоспособности вследствие неудачных действий пользователей-аналитиков).
Витрина данных (Data Mart) - это облегченный вариант хранилища данных, содержащий только тематически объединенные данные. Целевая база данных максимально приближена к конечному пользователю и может содержать тематически ориентированные агрегатные данные. Витрина данных существенно меньше по объему, чем хранилище данных, поэтому его реализации не требуется мощная вычислительная техника.
Глобальное хранилище данных. В
последнее время все более
популярной становится идея совместить
концепции хранилища и витрины
данных в одной реализации и использовать
хранилище данных в качестве единственного
источника интегрированных
На первом уровне реализуется корпоративное хранилище данных на основе одной из развитых современных реляционных СУБД. Это хранилище состоит, в основном, из детализированных данных. Реляционные СУБД обеспечивают эффективное хранение и управление данными очень большого объема, но не слишком хорошо соответствуют потребностям OLAP-систем, в частности, в связи с требованием многомерного представления данных.
На втором уровне поддерживаются витрины данных на основе многомерной системы управления базами данных (примером такой системы является Oracle Express Server). Такие СУБД почти идеально подходят для целей разработки OLAP-систем, но пока не позволяют хранить сверхбольшие объемы данных (предельный размер многомерной базы данных составляет 10-40 Гбайт). В данном случае это и не требуется, поскольку речь идет о витринах данных. Необходимо заметить, что витрина данных не обязательно должна быть полностью сформирована. Она может содержать ссылки на хранилище данных и добирать оттуда информацию по мере поступления запросов. Конечно, это несколько увеличивает время отклика, но зато снимает проблему ограниченного объема многомерной базы данных.