Кластерный анализ

Автор: Пользователь скрыл имя, 06 Апреля 2012 в 17:21, доклад

Описание работы

Анализ отечественных и зарубежных публикаций показывает, что кластерный анализ находит применение в самых разнообразных научных направлениях: биология, медицина, археология, история, география, экономика, филология и т.д. В прекрасной книге В.В.Налимова "Вероятностная модель языка" [42] описано применение кластерного анализа при исследовании восприятия живописи.

Работа содержит 1 файл

Кластерный анали1.docx

— 431.55 Кб (Скачать)

view plaincopy to clipboardprint?

  1. x <- read.table('C:\\prj\\CNSVN\\stats\\stocks.csv', sep=',', header=TRUE) #читаем файл с ценами   
  2. x <- log(x) #логарифмируем цены  
  3. x <- x[-1] #отбросим колонку с датой  
  4. x <- apply(x, 2, diff) #считаем разницу между последовательными элементами  
  5. x <- t(x) #транспонируем таблицу  
  6. kmeans(x, 5, 1000000) #будем разбивать на 5 кластеров, максимум 1000000 иттераций  

Получаем результат:

1

2

3

4

5

RASP

AFLT, PMTL, PLZL, MMBM, MTSI, VZRZ

GAZP, LKOH, VTBR, URKA, TRNFP, SIBN, SBER, ROSN, GMKN, SNGS

OGK1, OGK2, OGK5

KMAZ, AVAZ

         

Сразу заметна тенденция  к группировке в кластеры компаний из одного сектора: автопроизводители попали в пятый кластер, нефтедобывающие компании и крупные банки в третий, все генерирующие компании в четвертый. Если запустить этот алгоритм снова, то результат может получится другой, но тенденция, тем не менее, сохранится. Почему было решено разбивать именно на 5 кластеров, а не 6 или 4? К сожалению, решение вопроса о количестве кластеров не алгоритмизируется, в конечном счете это всегда должен решать пользователь. Но с использованием иерархической кластеризации это решение можно отложить на потом:

view plaincopy to clipboardprint?

  1. x <- read.table('C:\\prj\\CNSVN\\stats\\stocks.csv', sep=',', header=TRUE) #читаем файл с ценами   
  2. x <- log(x) #логарифмируем цены  
  3. x <- x[-1] #отбросим колонку с датой  
  4. x <- apply(x, 2, diff) #считаем разницу между последовательными элементами  
  5. x <- t(x) #транспонируем таблицу    
  6. hc <- hclust(dist(x))    
  7. plot(hc)  

Вот за что я люблю R! Нам понадобилось заменить всего  одну строчку в прежнем примере  и получилось следующая картинка:

 
 
На этой картинке уже гораздо  лучше видны традиционные сектора  нашей экономики. Видны и выколотые  точки. Выколотые точки часто  могут стать предметом особого  исследования, ведь если компания ведет  себя не как все в её отрасли, значит она что-то делает по-другому. Знание подобной информации может дать дополнительное преимущество в торговле.

RELATED POSTS

 

Дивиденды rusquant 0.3.3

 

Этот безумный R

 

Тиковые данные rusquant v0.3

 

Геомагнитные  бури на фондовом рынке

 

Обновление rusquant 0.2

 

POSTED BY SERGE AT 6:37 AM 

EMAIL THISBLOGTHIS!SHARE TO TWITTERSHARE TO FACEBOOK

LABELS: DATA MINING, R

4 COMMENTS:

AnonymousMay 14, 2011 08:22 AM

спасибо огромное за статьи. мега познавательный ресурс. вопрос, что вам больше нравится R or Matlab (не учитывая тот факт, что второй платный)

Reply

SergEMay 18, 2011 07:48 PM

Пожалуйста! 
 
Все зависит от задачи. R заточен под статистическую обработку данных, поэтому в такого рода задачах я предпочитаю его (хотя, может быть я просто плохо знаю matlab :) )

Reply

AnonymousMay 23, 2011 05:44 AM

спасибо еще раз )

Reply

AnonymousDec 23, 2011 10:22 AM

наконец-то! абсолютно  понятный пример кластерного анализа!))) 
спасибо!!))

Reply

 

 

 

http://www.aup.ru/books/m498/4_2.htm

Глава 3. Формы негосударственной  поддержки предпринимательства

3.2. Кластерный анализ в  предпринимательстве[70]

Кластерный анализ – вид исследовательского подхода, используемый для идентификации основных характеристик  производственных объединений – кластеров и ассоциируемых с ними институтов, объединенных общими целями и дополняющих друг друга.

Для различного уровня кластерного анализа используются варианты кластерной концепции (Табл. 3.1), сущность которой состоит в  обеспечении производственно-коммерческой деятельности на основе инновационных  технологий и совершенствовании  деловых и личных взаимоотношений  руководителей.

Например, с  целью перехода предпринимательской  деятельности на новый качественный уровень проводится анализ конкурентоспособности  сети поставщиков, сформировавшейся около  центральной компании. Посредством  этого анализа изучаются отсутствующие  звенья и осуществляется поиск стратегических партнерств для инновационных проектов, которые включают в себя всю производственную цепь.

Таблица 3.1

Различные уровни кластерного анализа[71]

Уровеньанализа

Кластерная концепция

Фокус анализа

Микроуровень

Специализированные  поставщики вокруг одной или более  центральных компаний

Стратегическое  развитие предпринимательской деятельности

Анализ сети и  сетевое управление

Развитие совместных инновационных проектов

Мезоуровень

Меж- и внутриотраслевые связи в различных звеньях производственной цепи готовой продукции

Анализ  основных факторов развития отраслей

Исследование инновационных  потребностей

Макроуровень

Связи в рамках национальной экономики

Направления специализации в национальной и  региональной экономике

Необходимость инноваций  и повышения качества производства и продукции в мегакластерах


В этом случае кластерный анализ непосредственно  связан со стратегическим развитием  предпринимательской деятельности. На мезоуровне проводится анализ взаимосвязанных отраслей в рамках производственной цепочки. Если анализ на мезоуровне наиболее популярен в США, Италии, Швеции, то в ряде других стран (Норвегии, Голландии) большое распространение получил анализ макроуровня, при котором акцент делается на исследование связей внутри мега-кластеров, распространяющих предпринимательскую деятельность на всю территорию страны.

Кластерный  анализ различается не только по уровню предмета анализа, но и по использованию  в нем различной методологии. Выделяются шесть основных методологических подходов (Табл. 3.2).

Таблица 3.2

Альтернативные  методы кластерного анализа

Метод

Преимущества

Недостатки

Оценка экспертов

Эффективен с точки зрения сроков исполнения и цены. Подробное описание ситуации

Не подлежит обобщению. Практически  невозможно вести систематический  сбор данных

Показатели территории

Доступный, недорогой.

Может дополнять другие методы

Фокус на секторах, а не на кластерах

«Затраты – доход»: торговля

Часто главный источник данных по взаимозависимости. Исчерпывающий  и подробный

Может быть недостаточно точным для  современного состояния промышленности. Не обращает внимания на поддерживающие институты

«Затраты – доход»: инновации

Ключевой показатель взаимозависимости

Не имеется данных по многим странам

Сетевой анализ –теория графиков

Зрительный образ помогает объяснению и анализу

Методика и программное обеспечение еще ограниченны

Обзоры

Приспособляемость к идеальному сбору  данных, удобен для циркуляции

Дорогостоящий. Трудно осуществлять на должном уровне


 

 

Метод оценки экспертов является наиболее распространенным для идентификации региональных кластеров через создание целевых групп, интервью и подготовку соответствующих обзоров, а также другие способы сбора ключевой информации. В круг региональных экспертов могут входить промышленные лидеры, общественные деятели и другие официальные лица, имеющие отношение к принятию решений. Они являются важным источником информации о тенденциях региональной экономики, ее характеристике, сильных и слабых сторонах применяемой в регионе практике управления, снабженческих сетях, структуре текущих инвестиций и потенциальных возможностей для изготовления новой продукции. Под категорию «оценка экспертов» подпадают также отчеты промышленных ассоциаций, статьи в периодической прессе о региональной экономике и другие опубликованные документы, несущие ценные подробности, но не являющиеся систематическим, основанным на опыте, анализом.

Хотя сбор данных для экспертной оценки может  быть относительно результативным как  по срокам и в стоимостном выражении, так и по ценности собранной информации, однако он редко выполняется в  систематизированном виде, достаточном  для окончательных обобщений. К  тому же характерной для многих исследователей является переоценка достоверности  мнений, собранных ими в деловых  кругах. Метод экспертной оценки используется в кластерном анализе на микроуровне.

Показатель территории (ПТ) является простым соотношением долей занятости: доля занятости в региональной отрасли от общей занятости в региональной экономике к доле занятости в национальной отрасли от общей занятости в национальной экономике. Если ПТ равен 1,0, то это означает, что региональная экономика имеет такую же долю занятости в отрасли, как и страна в целом. Если же ПТ превышает 1,25, то это обычно расценивается, как свидетельство региональной специализации в данном секторе. Показатели территории, как правило, применяются в технике анализа отрасли и потому не способствуют распознаванию взаимозависимостей внутри секторов. В связи с этим исследования промышленных кластеров с целью их идентификации, основанные только на ПТ, могут дать извращенную картину. Однако ПТ во взаимодействии с другими методами анализа очень хорошо способствуют повышению качества кластерного анализа мезоуровня.

Обычно для  анализа промышленных кластеров  мезоуровня применяются два основных вида анализа: «сверху – вниз» и «снизу – вверх». Последний вид наиболее применим для небольших регионов, обладающих лишь несколькими отраслями, или для городов и местностей с малым числом секторов экономики с небольшими возможностями для трудоустройства. В этом случае аналитик стремится определить возможности кластера, рассматривая каждый сектор отдельно, и лишь затем выявить его связи с другими отраслями и связанными с ними институтами. При этом создается картина региональной взаимозависимости с самого основания, постепенно, сектор за сектором. Например, деревообрабатывающее оборудование, химикаты для дерева, заготовка и транспортировка леса, нефтепереработка, лесопильное производство подводят нас к производству целлюлозы и далее – к выпуску картона и/или упаковочной бумаги. Показатели территории могут использоваться в таком анализе как один из критериев характеристики сектора.

Метод анализа  кластеров «сверху – вниз»  основывается на сведении высшего к  низшему (статистический кластерный анализ, анализ средств производства и пр.). Этот метод несколько уступает другим с точки зрения контроля за достоверностью анализа, однако, дает уникальные возможности продемонстрировать уровень сложности кластерного анализа.

Распознавание кластеров через  анализ «затраты – доход». Региональные аналитики давно уже используют ряд методик, включающих в себя теорию графиков, компонентов средств производства для того, чтобы объединять отрасли в группах, основанных на связях «затраты – доход».

В самых поздних  исследованиях кластеров стал применяться  более современный статистический метод кластерного анализа. Как  правило, осуществляется пять главных  этапов проведения кластерного анализа  данным методом:

1. Дать характеристику  кластеров (существующих или потенциальных), возникающих, привязанных к местности  (или не привязанных).

2. Определить  наиболее подходящий для анализа  метод: «сверху – вниз» или  «снизу – вверх».

3. В случае  использования подхода «сверху  – вниз» выбрать аналитический  метод (статистический кластерный  анализ, анализ факторов производства  и др.).

4. Обеспечить  сбор данных.

5. Провести  анализ и дать трактовку его  результатов.

Общий подход к кластерной политике и анализу, начинающийся с определения характеристик  кластера и, соответственно, метода и  техники анализа кластера представлен  на Рис. 3.1.

Рисунок 3.1 –  Общий подход к кластерной политике и анализу

Определение кластера может основываться на модели национальных конкурентных преимуществ («диамант» Портера) или на более  узком подходе к взаимозависимости, основанной на технологических взаимосвязях. В свою очередь определение кластера, сфокусированное на взаимоотношениях «покупатель – поставщик», подразумевает  использование количественного  анализа с матрицей «затраты –  доход», которая отражает подтвержденные документами  потоки между всеми участниками.

Выводы для  экономической политики, основанные на полученных с помощью анализа  данных, используются для разработки стратегии развития и выработки  мер по формированию кластера или  расширения уже существующего кластера, имеющего перспективы для развития.

На Рис. 3.2 представлен  альтернативный способ проведения кластерного  анализа. На основе сформулированной стратегической задачи оговаривается эффективный  набор ограничений при определении  кластера, который, в свою очередь, предполагает использование соответствующей  методики, обусловленной существующими  ресурсами и ограничениями. Полученные на основе целенаправленного анализа  данные обеспечивают более эффективные  ориентиры и руководство для  разработки специфических установочных инициатив. Таким образом, в рамках альтернативного подхода к кластерной политике и анализу акцент ставится на первоначальную приоритетную выработку  основ стратегии и ее реализацию еще до выбора методики анализа.

Информация о работе Кластерный анализ