Інтелектуальний аналіз даних у зовнішньоекономічній діяльності

Автор: Пользователь скрыл имя, 04 Декабря 2011 в 19:43, лекция

Описание работы

Технологія Data Mining.
Нейронні мережі.
Генетичні алгоритми.
Експертні системи.
Панелі ключових індикаторів ефективності міжнародного бізнесу. Збалансовані системи показників ЗЕД.

Работа содержит 1 файл

Змістовий модуль 5.doc

— 71.50 Кб (Скачать)

     Змістовий модуль 5. Інтелектуальний  аналіз даних у  зовнішньоекономічній діяльності 

  1. Технологія Data Mining.
  2. Нейронні мережі.
  3. Генетичні алгоритми.
  4. Експертні системи.
  5. Панелі ключових індикаторів ефективності міжнародного бізнесу. Збалансовані системи показників ЗЕД.
 

     Термин Data Mining получил свое название из двух понятий: поиска ценной информации в  большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют  или просеивания огромного количества сырого материала, или разумного  исследования и поиска искомых ценностей.

     Термин Data Mining часто переводится как  добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining [1].

     Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных.

     О популярности Data Mining говорит и тот  факт, что результат поиска термина "Data Mining" в поисковой системе Google (на сентябрь 2005 года) - более 18 миллионов  страниц.

     Что же такое Data Mining?

     Data Mining - мультидисциплинарная область,  возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др., см. рис. 1.1.

       

     Понятие Data Mining тесно связано с технологиями баз данных и понятием данные, которые  будут подробно рассмотрены в следующей лекции.

     Развитие  технологии баз данных 

     1960-е  гг.

     В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS фирмы IBM.

     1970-е  гг.

     В 1975 году появился первый стандарт ассоциации по языкам систем обработки данных - Conference on Data System Languages (CODASYL), определивший ряд фундаментальных понятий в теории систем баз данных, которые до сих пор являются основополагающими для сетевой модели данных. В дальнейшее развитие теории баз данных большой вклад был сделан американским математиком Э.Ф. Коддом, который является создателем реляционной модели данных.

     1980-е  гг.

     В течение этого периода многие исследователи экспериментировали с новым подходом в направлениях структуризации баз данных и обеспечения  к ним доступа. Целью этих поисков было получение реляционных прототипов для более простого моделирования данных. В результате, в 1985 году был создан язык, названный SQL. На сегодняшний день практически все СУБД обеспечивают данный интерфейс.

     1990-е  гг.

     Появились специфичные типы данных - "графический образ", "документ", "звук", "карта". Типы данных для времени, интервалов времени, символьных строк с двухбайтовым представлением символов были добавлены в язык SQL. Появились технологии DataMining, хранилища данных, мультимедийные базы данных и web-базы данных.

     Возникновение и развитие Data Mining обусловлено различными факторами, основными среди которых  являются следующие [2]:

     совершенствование аппаратного и программного обеспечения;

     совершенствование технологий хранения и записи данных;

     накопление  большого количества ретроспективных  данных;

     совершенствование алгоритмов обработки информации.

     Понятие Data Mining

     Data Mining - это процесс поддержки принятия  решений, основанный на поиске  в данных скрытых закономерностей (шаблонов информации) [3].

     Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro) - один из основателей этого направления:

     Data Mining - это процесс обнаружения  в сырых данных ранее неизвестных,  нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

     Суть  и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена  для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

     Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

     Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

     Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.

     Знания - совокупность сведений, которая образует целостное описание, соответствующее  некоторому уровню осведомленности  об описываемом вопросе, предмете, проблеме и т.д.

     Использование знаний (knowledge deployment) означает действительное применение найденных знаний для достижения конкретных преимуществ (например, в конкурентной борьбе за рынок).

     Приведем  еще несколько определений понятия Data Mining.

     Data Mining - это процесс выделения из  данных неявной и неструктурированной  информации и представления ее в виде, пригодном для использования.

     Data Mining - это процесс выделения, исследования  и моделирования больших объемов  данных для обнаружения неизвестных  до этого структур (patterns) с целью  достижения преимуществ в бизнесе  (определение SAS Institute).

     Data Mining - это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате  просеивания большого объема  хранимых данных с использованием  методик распознавания образцов  плюс применение статистических  и математических методов (определение Gartner Group).

     В основу технологии Data Mining положена концепция  шаблонов (patterns), которые представляют собой закономерности, свойственные подвыборкам данных, кои могут  быть выражены в форме, понятной человеку.

     "Mining" по-английски означает "добыча полезных ископаемых", а поиск закономерностей в огромном количестве данных действительно сродни этому процессу.

     Цель  поиска закономерностей - представление  данных в виде, отражающем искомые  процессы. Построение моделей прогнозирования также является целью поиска закономерностей. 

     Классификация аналитических систем

     Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах  ввело термин "Business Intelligence" (BI), деловой интеллект или бизнес-интеллект. Этот термин предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений.

     В 1996 году агентство уточнило определение  данного термина.

     Business Intelligence - программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений.

     Понятие BI объединяет в себе различные средства и технологии анализа и обработки данных масштаба предприятия.

     На  основе этих средств создаются BI-системы, цель которых - повысить качество информации для принятия управленческих решений.

     BI-системы  также известны под названием  Систем Поддержки Принятия Решений (СППР, DSS, Decision Support System). Эти системы превращают данные в информацию, на основе которой можно принимать решения, т.е. поддерживающую принятие решений.

     Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов:

     средства  построения хранилищ данных (data warehousing, ХД);

     системы оперативной аналитической обработки (OLAP);

     информационно-аналитические  системы (Enterprise Information Systems, EIS);

     средства  интеллектуального анализа данных (data mining);

     инструменты для выполнения запросов и построения отчетов (query and reporting tools).

     Классификация Gartner базируется на методе функциональных задач, где программные продукты каждого класса выполняют определенный набор функций или операций с использованием специальных технологий.

     Сложность разработки и эксплуатации приложения Data Mining 

     Поскольку данная технология является мультидисциплинарной областью, для разработки приложения, включающего Data Mining, необходимо задействовать специалистов из разных областей, а также обеспечить их качественное взаимодействие.

     Квалификация  пользователя

     Различные инструменты Data Mining имеют различную  степень "дружелюбности" интерфейса и требуют определенной квалификации пользователя. Поэтому программное  обеспечение должно соответствовать  уровню подготовки пользователя. Использование Data Mining должно быть неразрывно связано с повышением квалификации пользователя. Однако специалистов по Data Mining, которые бы хорошо разбирались в бизнесе, пока еще мало.

     Извлечение  полезных сведений невозможно без хорошего понимания сути данных

     Необходим тщательный выбор модели и интерпретация зависимостей или шаблонов, которые обнаружены. Поэтому работа с такими средствами требует тесного сотрудничества между экспертом в предметной области и специалистом по инструментам Data Mining. Построенные модели должны быть грамотно интегрированы в бизнес-процессы для возможности оценки и обновления моделей. В последнее время системы Data Mining поставляются как часть технологии хранилищ данных.

     Сложность подготовки данных

     Успешный  анализ требует качественной предобработки  данных. По утверждению аналитиков и пользователей баз данных, процесс предобработки может занять до 80% процентов всего Data Mining-процесса.

     Таким образом, чтобы технология работала на себя, потребуется много усилий и времени, которые уходят на предварительный  анализ данных, выбор модели и ее корректировку.

     Большой процент ложных, недостоверных или  бессмысленных результатов

     С помощью Data Mining можно отыскивать действительно  очень ценную информацию, которая  вскоре даст большие дивиденды в  виде финансовой и конкурентной выгоды.

     Однако Data Mining достаточно часто делает множество  ложных и не имеющих смысла открытий. Многие специалисты утверждают, что Data Mining-средства могут выдавать огромное количество статистически недостоверных  результатов. Чтобы этого избежать, необходима проверка адекватности полученных моделей на тестовых данных.

     Высокая стоимость

     Качественная Data Mining-программа может стоить достаточно дорого для компании. Вариантом служит приобретение уже готового решения  с предварительной проверкой  его использования, например на демо-версии с небольшой выборкой данных.

     Наличие достаточного количества репрезентативных данных

     Средства Data Mining, в отличие от статистических, теоретически не требуют наличия  строго определенного количества ретроспективных данных. Эта особенность может стать причиной обнаружения недостоверных, ложных моделей и, как результат, принятия на их основе неверных решений. Необходимо осуществлять контроль статистической значимости обнаруженных знаний.

     Традиционные  методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на "грубый" разведочный анализ, составляющий основу оперативной аналитической обработки данных (OnLine Analytical Processing, OLAP), в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей. Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным.

Информация о работе Інтелектуальний аналіз даних у зовнішньоекономічній діяльності