Основные сферы применения Data Mining

Автор: Пользователь скрыл имя, 05 Ноября 2012 в 21:10, курсовая работа

Описание работы

Развитие методов записи и хранения данных привело к бурному росту объемов собираемой и анализируемой информации. Объемы данных настолько внушительны, что человеку просто не по силам проанализировать их самостоятельно, хотя необходимость проведения такого анализа вполне очевидна, ведь в этих «сырых» данных заключены знания, которые могут быть использованы при принятии решений. Для того чтобы провести автоматический анализ данных, используется Data Mining.

Содержание

Введение. Что такое Data Mining? 3
Применение Data Mining для решения бизнес-задач 4
Применение Data Mining в CRM 11
Data Mining для научных исследований 14
Web Mining 16
Text Mining 20
Call Mining 21
Список используемой литературы 23

Работа содержит 1 файл

курсовая Анализ данных.docx

— 52.88 Кб (Скачать)

Несмотря на пользу, которую  приносят системы отслеживания, эксперты упомянутого управления, так же как  и независимые эксперты, предупреждают  о значительном риске, с которым  связаны подобные проекты. Причина  опасений - проблемы, которые могут  возникнуть при управлении и надзоре  за такими базами.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Data Mining для научных исследований

 

Биоинформатика

Одна из научных областей применения технологии Data Mining - биоинформатика, направление, целью которого является разработка алгоритмов для анализа и систематизации генетической информации. Полученные алгоритмы используются для определения структур макромолекул, а также их функций, с целью объяснения различных биологических явлений.

Медицина

Несмотря на консервативность медицины во многих ее аспектах, технология Data Mining в последние годы активно применяется для различных исследований и в этой сфере человеческой деятельности. Традиционно для постановки медицинских диагнозов используются экспертные системы, которые построены на основе символьных правил, сочетающих, например, симптомы пациента и его заболевание. С использованием Data Mining при помощи шаблонов можно разработать базу знаний для экспертной системы.

Фармацевтика

В области фармацевтики методы Data Mining также имеют достаточно широкое применение. Это задачи исследования эффективности клинического применения определенных препаратов, определение групп препаратов, которые будут эффективны для конкретных групп пациентов. Актуальными здесь также являются задачи продвижения лекарственных препаратов на рынок.

Молекулярная  генетика и генная инженерияВ молекулярной генетике и генной инженерии выделяют отдельное направление Data Mining, которое имеет название анализ данных в микро-массивах (Microarray Data Analysis, MDA)

Некоторые применения этого направления:

  • ранняя и более точная диагностика;
  • новые молекулярные цели для терапии;
  • улучшенные и индивидуально подобранные виды лечения;
  • фундаментальные биологические открытия.

Примеры использования Data Mining - молекулярный диагноз некоторых серьезнейших заболеваний; открытие того, что генетический код действительно может предсказывать вероятность заболевания; открытие некоторых новых лекарств и препаратов.

Основные понятия, которыми оперирует Data Mining в областях "Молекулярная генетика и генная инженерия" - маркеры, т.е. генетические коды, которые контролируют различные признаки живого организма.

На финансирование проектов с использованием Data Mining в рассматриваемых сферах выделяют значительные финансовые средства.

Химия

Технология Data Mining активно используется в исследованиях органической и неорганической химии. Одно из возможных применений Data Mining в этой сфере - выявление каких-либо специфических особенностей строения соединений, которые могут включать тысячи элементов.

Далее мы рассмотрим технологии, в основу которых также положено понятие Mining или "добыча".

Web Mining

 

Web Mining можно перевести как "добыча данных в Web". Web Intelligence или Web Интеллект готов "открыть новую главу" в стремительном развитии электронного бизнеса. Способность определять интересы и предпочтения каждого посетителя, наблюдая за его поведением, является серьезным и критичным преимуществом конкурентной борьбы на рынке электронной коммерции.

Системы Web Mining могут ответить на многие вопросы, например, кто из посетителей является потенциальным клиентом Web-магазина, какая группа клиентов Web-магазина приносит наибольший доход, каковы интересы определенного посетителя или группы посетителей.

Технология Web Mining охватывает методы, которые способны на основе данных сайта обнаружить новые, ранее неизвестные знания и которые в дальнейшем можно будет использовать на практике. Другими словами, технология Web Mining применяет технологию Data Mining для анализа неструктурированной, неоднородной, распределенной и значительной по объему информации, содержащейся на Web-узлах.

Согласно таксономии Web Mining , здесь можно выделить два основных направления: Web Content Mining и Web Usage Mining.

Web Content Mining подразумевает автоматический поиск и извлечение качественной информации из разнообразных источников Интернета, перегруженных "информационным шумом". Здесь также идет речь о различных средствах кластеризации и аннотировании документов.

В этом направлении, в свою очередь, выделяют два подхода: подход, основанный на агентах, и подход, основанный на базах данных.

Подход, основанный на агентах (Agent Based Approach), включает такие системы:

  • интеллектуальные поисковые агенты (Intelligent Search Agents);
  • фильтрация информации / классификация;
  • персонифицированные агенты сети.

Примеры систем интеллектуальных агентов поиска:

  • Harvest (Brown и др., 1994),
  • FAQ-Finder (Hammond и др., 1995),
  • Information Manifold (Kirk и др., 1995),
  • OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),
  • ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
  • ShopBot (Doorenbos и др., 1996).

Подход, основанный на базах  данных (Database Approach), включает системы:

  • многоуровневые базы данных;
  • системы web-запросов (Web Query Systems);

Примеры систем web-запросов:

  • W3QL (Konopnicki и Shmueli, 1995),
  • WebLog (Lakshmanan и др., 1996),
  • Lorel (Quass и др., 1995),
  • UnQL (Buneman и др., 1995 and 1996),
  • TSIMMIS (Chawathe и др.., 1994).

Второе направление Web Usage Mining подразумевает обнаружение закономерностей в действиях пользователя Web-узла или их группы.

Анализируется следующая  информация:

  • какие страницы просматривал пользователь;
  • какова последовательность просмотра страниц.

Анализируется также, какие  группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.

Web Usage Mining включает следующие составляющие:

  • предварительная обработка;
  • операционная идентификация;
  • инструменты обнаружения шаблонов;
  • инструменты анализа шаблонов.

При использовании Web Mining перед разработчиками возникает два типа задач. Первая касается сбора данных, вторая - использования методов персонификации. В результате сбора некоторого объема персонифицированных ретроспективных данных о конкретном клиенте, система накапливает определенные знания о нем и может рекомендовать ему, например, определенные наборы товаров или услуг. На основе информации о всех посетителях сайта Web-система может выявить определенные группы посетителей и также рекомендовать им товары или же предлагать товары в рассылках.

Задачи Web Mining согласно можно подразделить на такие категории:

  • Предварительная обработка данных для Web Mining.
  • Обнаружение шаблонов и открытие знаний с использованием ассоциативных правил, временных последовательностей, классификации и кластеризации;
  • Анализ полученного знания.

 

 

 

 

 

 

 

 

 

 

 

Text Mining

 

Text Mining охватывает новые методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text - поиск или обнаружение знаний в тексте).

В отличие от технологии Data Mining, которая предусматривает анализ упорядоченной в некие структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации.

Программы, реализующие эту  задачу, должны некоторым образом  оперировать естественным человеческим языком и при этом понимать семантику  анализируемого текста. Один из методов, на котором основаны некоторые Text Mining системы, - поиск так называемой подстроки в строке.

 

 

 

 

 

 

 

 

 

 

 

 

 

Call Mining

 

По словам Энн Беднарц , "добыча звонков" может стать популярным инструментом корпоративных информационных систем.

Технология Call Mining объединяет в себя распознавание речи, ее анализ и Data Mining. Ее цель - упрощение поиска в аудио-архивах, содержащих записи переговоров между операторами и клиентами. При помощи этой технологии операторы могут обнаруживать недостатки в системе обслуживания клиентов, находить возможности увеличения продаж, а также выявлять тенденции в обращениях клиентов.

Среди разработчиков новой  технологии Call Mining ("добыча" и анализ звонков) - компании CallMiner, Nexidia, ScanSoft, Witness Systems. В технологии Call Mining разработано два подхода - на основе преобразования речи в текст и на базе фонетического анализа.

Примером реализации первого  подхода, основанного на преобразовании речи, является система CallMiner. В процессе Call Mining сначала используется система преобразования речи, затем следует ее анализ, в ходе которого в зависимости от содержания разговоров формируется статистика телефонных вызовов. Полученная информация хранится в базе данных, в которой возможен поиск, извлечение и обработка.

Пример реализации второго  подхода - фонетического анализа - продукция  компании Nexidia. При этом подходе речь разбивается на фонемы, являющиеся звуками или их сочетаниями. Такие элементы образуют распознаваемые фрагменты. При поиске определенных слов и их сочетаний система идентифицирует их с фонемами.

Аналитики отмечают, что  за последние годы интерес к системам на основе Call Mining значительно возрос. Это объясняется тем фактом, что менеджеры высшего звена компаний, работающих в различных сферах, в т.ч. в области финансов, мобильной связи, авиабизнеса, не хотят тратить много времени на прослушивание звонков с целью обобщения информации или же выявления каких-либо фактов нарушений.

По словам Дэниэла Хонг, аналитика компании Datamonitor: "Использование этих технологий повышает оперативность и снижает стоимость обработки информации".

Типичная инсталляция  продукции от разработчика Nexidia обходится в сумму от 100 до 300 тыс. долл. Стоимость внедрения системы CallMiner по преобразованию речи и набора аналитических приложений составляет около 450 тыс. долл.

По мнению Шоллера, приложения Audio Mining и Video Mining найдут со временем гораздо более широкое применение, например, при индексации учебных видеофильмов и презентаций в медиабиблиотеках компаний. Однако технологии Audio Mining и Video Mining находятся сейчас на уровне становления, а практическое их применение - на самой начальной стадии.

 

 

 

 

 

 

 

 

 

 

 

Список используемой литературы

 

  1. intuit.ru
  2. forekc.ru
  3. wikipedia.org.
  4. Учебные пособия и материалы.

 


Информация о работе Основные сферы применения Data Mining