Хранилище данных

Автор: Пользователь скрыл имя, 21 Февраля 2013 в 17:34, реферат

Описание работы

Во время жизненного цикла корпорации накапливают большие объемы данных, которые несут в себе потенциальные возможности по получению новой аналитической информации. На основе полученной информации необходимо строить стратегию фирмы, выявлять тенденции развития рынка, находить новые решения, обусловливающие успешное развитие в условиях конкурентной борьбы.

Работа содержит 1 файл

Хранилище данных. Говорухина Настя.docx

— 53.36 Кб (Скачать)

На третьем уровне находятся  клиентские рабочие места конечных пользователей, на которых устанавливаются  средства оперативного анализа данных.

 

Хранилища данных обладают рядом свойств:

1. Предметная ориентация. В отличие  от традиционной схемы реализации  информационной системы, где источником  данных для средств анализа  являются ОБД, в которых данные  ориентированы на обработку и  функциональность систем сбора  информации, данные в ХД ориентированы  на решение задач анализа и  представления данных.

2. Интегрированность данных. Данные в информационное хранилище поступают из различных источников, где они могут иметь разные имена, атрибуты, единицы измерения и способы кодировки. После загрузки в ХД данные очищаются от индивидуальных признаков. С этого момента они представляются пользователю в виде единого информационного пространства.

3. Инвариантность во времени.  В OLTP-системах истинность данных  гарантирована только в момент  чтения, поскольку уже в следующее  мгновение они могут измениться  в результате очередной транзакции. Важным отличием ХД от OLTP-систем  является сохранение истинности  данных в любой момент процесса  чтения. В OLTP-системах информация  часто модифицируется как результат  выполнения каких-либо транзакций.

4. Неразрушаемость - стабильность информации. В OLTP-системах записи могут регулярно добавляться, удаляться и редактироваться. В системах ХД, как следует из требования временной инвариантности, однажды загруженные данные теоретически никогда не меняются. По отношению к ним возможны только две операции: начальная загрузка и чтение (доступ).

5. Интеграция. Различные ОБД разрабатываются  различными коллективами разработчиков,  зачастую в разное время и  различными средствами разработки. Это приводит к тому, что объекты,  отражающие одну сущность, имеют  различные наименования и единицы  измерения. Обязательная интеграция  данных в ХД позволяет решить  эту проблему.

6. Минимизация избыточности информации. В ХД информация загружается  из ОБД или OLTP-систем, при этом  избыточность оказывается минимальной

Типы хранилищ данных

Концепция ХД развивалась по мере расширения сферы применения. Вначале  под ХД понимался набор предметно-ориентированных, интегрированных, не меняющихся во времени  исторических данных, предназначенных  для принятия решений руководством.

Потом стало очевидным, что ХД обладают определенной внутренней структурой. Они содержат базовые данные, которые  образуют единый источник для обработки  данных во всех системах поддержки  принятия решений (DSS). С помощью ХД можно выполнить согласование данных, несмотря на разногласие данных-источников. А элементарные данные, присутствующие в ХД, могут быть представлены в  различной форме, отвечая не только известным требованиям, но и еще  неизвестным.

ХД обычно имеют очень большой  объем данных, поскольку в них  содержатся исторические и детализированные данные, от нескольких терабайт и больше. По частоте использования данные в ХД подразделяются на два класса: активно и неактивно используемые данные. Большой объем неактивно  используемых данных может значительно  снизить производительность обработки  запросов к ХД.

Несмотря на то, что указанные  выше характеристики являются общими для всех ХД, в настоящее время  довольно трудно типизировать и классифицировать всевозможные ХД. Можно предложить некоторую классификацию ХД в  зависимости от характеристик предметной области, которые придают ХД индивидуальные особенности. Классификация архитектурных  программно-аппаратных решений будет  дана в следующей лекции.

1.Финансовые хранилища данных

В большинстве случаев финансовые ХД организации строят в первую очередь. Создание финансового ХД — необходимый компонент финансовой инфраструктуры любой организации.

По этим причинам финансы становятся самой предпочтительной областью построения корпоративного ХД. Однако финансовые ХД имеют серьезные, присущие только этому типу проблемы. Первая проблема заключается в следующем. Руководство  организации ожидает, что сведения из финансовых ХД будут с точностью до одной копейки совпадать с данными существующей финансовой среды. Ожидание того, что информация в финансовом ХД должна точь-в-точь совпасть с цифрами из текущего финансового отчета, является глубоко ошибочным. Люди (то есть финансовые работники), которые так думают, просто не понимают, что, когда данные переходят из операционной среды в финансовое ХД, происходит их трансформация. А когда данные перетекают из мира приложений в реальный мир организации, их рассматривают в другом измерении.

2. Хранилища данных в области страхования

ХД в области страхования, за некоторыми небольшими исключениями, похожи на все другие. Первое исключение (характерное для западных компаний) заключается в том, что продолжительность существования имеющихся ХД очень велика. Такие ХД содержат данные, которые являются очень старыми (до начала XX века)

Второе отличие этих ХД определяется датами, сведения о которых хранятся в этой сфере деятельности. Среда  страхования — по каким бы то ни было причинам — отличается наличием огромного числа дат, связанных с бизнесом, большим, чем в каком-либо другом виде деятельности. Так, в сфере розничной торговли имеется несколько важных дат: дата продажи, дата появления на складе, возможно, дата производства. В банковском деле существенна дата транзакции. В телекоммуникации — дата телефонного звонка. В страховании же присутствуют даты всевозможных типов.

Наконец, третье отличие заключается  в том, что эти ХД используют свой рабочий цикл деловой активности. Большинство организаций имеет весьма ограниченный и короткий экономический цикл. Так, в банках это — обналичивание чека. В торговле — покупка изделия. В телефонной компании — звонок. В страховании им может быть заявка на страховое возмещение, которая может быть удовлетворена спустя пять лет, или закрытие полиса может сопровождаться двухмесячной отсрочкой. В итоге скорость, с которой функционирует страхование, отличается от скорости, характерной для других отраслей.

3. Хранилища данных для управления персоналом

ХД для управления людскими ресурсами имеют весьма существенные отличия от других ХД. Первое отличие — число предметных областей. Такое ХД неизбежно имеет одну важную предметную область — это работник. Практически все остальное подчинено этой области или занимает второстепенное положение. Большинство же других ХД имеют несколько базовых предметных областей.

Основное отличие ХД для управления людскими ресурсами состоит в  том, что они используют очень  мало транзакций. Так, имеется дата, когда субъект становится работником; дата, когда человек увольняется; годовые прибавки и повышения. Но, кроме транзакций фонда заработной платы и прочих редких, сгенерированных  работником, транзакций, в таком  ХД практически больше ничего и нет. Сравните сферу управления людскими ресурсами с коммуникацией или  банковской средой, и разница в  числе транзакций станет очевидной.

4. Глобальные хранилища данных

Глобальные хранилища данных предназначены  для глобального представления  деятельности организации. Различают три типа таких ХД.

  • Географически превалирующая обработка данных. Например, необходимо интегрировать бизнес в Гонконге с бизнесом в Париже, который, в свою очередь, следует интегрировать с Москвой, а тот — с Владивостоком.
  • Функционально превалирующая обработка данных. Производственная деятельность должна быть интегрирована с поставками, которые необходимо интегрировать с продажами, а те — с исследованиями и так далее.
  • Отраслевая превалирующая обработка данных. Например, требуется интегрировать печатное дело с консалтингом, который подлежит интеграции с бизнесом в сфере медицинского оборудования, а тот — со специализацией в области программного обеспечения.

Особенность глобального ХД заключается в том, что на глобальном уровне зачастую очень мало общих измерений. Единственное общее измерение — это деньги. И интеграция бизнеса может быть достигнута только с его помощью. Другие же измерения могут иметь или не иметь смысл на глобальном уровне. Так, клиент, продукт, поставщик, транзакция — все эти классические предметные области могут как присутствовать, так и отсутствовать в глобальной интегрированной сфере — глобальном ХД.

5. Хранилища данных с возможностями обнаружения новых данных (Data Mining)

ХД, поддерживающие технологию обнаружения  новых данных (Data Mining), являются гибридом классических ХД. Они используются для выполнения мощной статистической обработки данных. Эти ХД являются:

  • очень детальными;
  • глубоко историческими;
  • оптимизированными для статистического анализа.

6. Хранилища данных в области телекоммуникаций

Отличительная особенность этих ХД состоит в том, что они в  значительной степени определяются данными, касающимися факта телефонных разговоров. Разумеется, в отрасли  телекоммуникации присутствует множество  других типов данных. Но ни одна другая область ХД не предопределяется в такой степени размером одной предметной области — деталями на уровне разговора.

Существуют несколько способов хранения подробностей на уровне телефонного  разговора:

  • хранение деталей на уровне разговора только за несколько месяцев;
  • хранение множества деталей на уровне разговора, размещенных на различных носителях;
  • резюмирование или агрегирование деталей на уровне разговора;
  • хранение только отобранных деталей на уровне разговора, и так далее.

 

 Вывод

 
Итак, хранилища данных являются структурированными. Они содержат базовые данные, которые  образуют единый источник для обработки  данных во всех системах поддержки  принятия решений. Элементарные данные, присутствующие в хранилище, могут  быть представлены в различной форме. Хранилища данных исключительно  велики, поскольку в них содержатся интегрированные и детализированные данные.

Эти характеристики являются общими для всех хранилищ данных. Но, несмотря на то что хранилища обладают общими свойствами, разные типы хранилищ имеют свои индивидуальные особенности.

 

Бесплатные  сервисы облачных хранилищ данных.

Облачное хранилище  данных — модель онлайн-хранилища, в котором данные хранятся на многочисленных, распределённых в сети серверах, предоставляемых в пользование клиентам, в основном третьей стороной. В противовес модели хранения данных на собственных, выделенных серверах, приобретаемых или арендуемых специально для подобных целей, количество или какая-либо внутренняя структура серверов клиенту, в общем случае, не видна. Данные хранятся, а равно и обрабатываются, в так называемомоблаке, которое представляет собой, с точки зрения клиента, один большой, виртуальный сервер.

 

Стоимость.

Для ориентира, можно дать очень  примерную стоимость внедрения  хранилища данных для среднего Банка  со средней функциональностью, стоимость  составит около 4 000 000$ и потребует около 3-х лет.

Более точно можно оценить область  охвата проведя предварительное  обследование в течении 3-х месяцев и точно определить рамки бюджета, проведя конкурс среди 10-ти наиболее известных интеграторов региона. 
Мне приходилось участвовать, готовить или просто анализировать около 10-ти коммерческие проектов по внедрению хранилища данных с бюджетом от 500 000$ до 7 000 000$ и сроками реализации от 1-го до 4-х лет. На стоимость влияет очень много факторов: заинтересованность бизнеса, четкое описание области охвата, хороший менеджмент, выбранная архитектура хранилища, модель данных, состав источников и качество данных, унификация НСИ, проработанность методик расчета по функциональным задачам, выбор вендора, квалификация команды от исполнителя и команды от Банка и тп.

Распределение затрат:

Среда Microsoft Data Warehousing Framework

Процессы создания, поддержки и  использования хранилищ данных традиционно  требовали значительных затрат, что  в первую очередь было вызвано  высокой стоимостью доступных на рынке специализированных инструментов. Эти инструменты практически  не интегрировались между собой, так как были основаны не на открытых и стандартных, а на частных и  закрытых протоколах, интерфейсах и  т.д. Сложность и дороговизна делали практически невозможным построение хранилищ данных в небольших и  средних фирмах, в то время как  потребность в анализе данных испытывает любая фирма, независимо от масштаба.

Корпорация Microsoft давно осознала важность направления, связанного с хранилищами данных, и необходимость принятия мер по созданию инструментальной и технологической среды, которая позволила бы минимизировать затраты на создание хранилищ данных и сделала бы этот процесс доступным для массового пользователя. Это привело к созданию Microsoft Data Warehousing Framework - спецификации среды создания и использования хранилищ данных. Данная спецификация определяет развитие не только новой линии продуктов Microsoft, но и технологий, обеспечивающих интеграцию продуктов различных производителей. Открытость среды Microsoft Data Warehousing Framework обеспечила ее поддержку многими производителями ПО, что, в свою очередь, дает возможность конечным пользователям выбирать наиболее понравившиеся им инструменты для построения своих решений.


Информация о работе Хранилище данных