Робастные процедуры анализа данных

Автор: Пользователь скрыл имя, 06 Января 2012 в 10:35, контрольная работа

Описание работы

При решении задач статистического анализа и, в частности, при вычислении оценок параметров распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно важное зна¬чение. Присутствие единственного аномаль¬ного наблюдения может приводить к оценкам, которые совер¬шен¬но не согласуются с выборочными данными.

Содержание

Введение
1. Робастные процедуры анализа данных.
2. Оценка точности и статистической значимости данных.
3.Метод кластерного анализа
4. Сущность и содержание латентных признаков.
Список использованной литературы

Работа содержит 1 файл

анализ данных готовое.doc

— 174.00 Кб (Скачать)

     Как было уже сказано, величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Говоря общим языком, чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна (см. следующий раздел).

     Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то наиболее вероятно ожидать, что в исследуемой  выборке связь между этими  переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена. Как вы видите, величина зависимости и значимость тесно связаны между собой, и можно было бы попытаться вывести значимость из величины зависимости и наоборот. Однако указанная связь между зависимостью и значимостью имеет место только при фиксированном объеме выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высоко значимой, так и незначимой вовсе (см. следующий раздел).

     Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность  случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика. 

     3. Метод кластерного  анализа 

     Многократные  попытки классификации методов  кластерного анализа приводят к  десяткам, а то и сотням разнообразных  классов [5, 11-25]. Такое многообразие порождается большим количеством  возможных способов вычисления расстояния между отдельными наблюдениями, не меньшим количеством методов вычисления расстояния между отдельными кластерами в процессе кластеризации и многообразными оценками оптимальности конечной кластерной структуры. Наиболее подробно типология этих методов описана в [5]. 

     Наибольшее  распространение в популярных статистических пакетах получили два группы алгоритмов кластерного анализа: иерархические  агломеративные методы и итеративные  методы группировки. Автор не разделяет  мнения о том, что есть методы кластерного анализа более предпочтительные, например, в биологии или медицине, нежели в психологии. Тем, кто пытается в своей исследовательской практике применять те или иные методы многомерной статистики, в том числе и кластерный анализ, следует помнить, что получаемые при этом результаты не являются единственными, уникальными. Им необходимо понимать, что полученный результат есть порождение одного из многих возможных вариантов. И предпочтительность этого результата, а стало быть и метода анализа, перед другими еще следует оценить, а возможно и доказать своим коллегам или другим заинтересованным лицам. 

     В агломеративно-иерархических методах (aggomerative hierarhical algorithms), которые, по мнению автора, более часто используются в реальных биомедицинских исследованиях, первоначально все объекты (наблюдения) рассматриваются как отдельные, самостоятельные кластеры состоящие всего лишь из одного элемента. Если принять, что объем выборки равен N, то в этом случае можно используя ту или иную метрику, вычислить расстояния между всеми возможными парами объектов. Таких расстояний будет N*N. Например, для 105 пациентов будет вычислено 105*105=11025 взаимных парных расстояний. Это будут расстояния для следующих пар: 

     1-1; 1-2; 1-3; 1-4; .... 1-103; 1-104; 1-105;  

     2-1; 2-2; 2-3; 2-4; .... 2-103; 2-104; 2-105;  

     103-1; 103-2; .....103-103; 103-104; 103-105;  

     104-1; 104-2; .....104-103; 104-104; 104-105;  

     105-1; 105-2; .....105-103; 105-104; 105-105. 

     С учетом того, что dii = 0, и что dij = dji общее количество различных вычисляемых расстояний будет равно N*(N-1)/2, что при N=105 будет равно 5460, что примерно вдвое меньше первоначального числа. Однако это значительно больше 10 расстояний, которые были приведены в обучающем примере выше. Далее, с учетом того, что в реальных данных используются не два признака, как в том же обучающем примере, а десятки, а иногда и сотни, можно представить какой большой объем вычислений необходимо выполнить даже для этой простейшей операции. Очевидно, что без использования мощной вычислительной техники реализация кластерного анализа данных весьма проблематична. 

     Напомним  нашим читателям, что эта матрица  расстояний может быть получена с  помощью разнообразных метрик: евклидовой, Махаланобиса, семейства метрик Минковского и т.д. Выбор метрики производится самим исследователем. После вычисления матрицы расстояний начинается процесс агломерации (от латинского agglomero - присоединяю, накапливаю), проходящий последовательно шаг за шагом. На первом шаге этого процесса два исходных наблюдения (монокластера), между которыми самое минимальное расстояние, объединяются в один кластер, состоящий уже из двух объектов (наблюдений). Таким образом, вместо бывших N монокластеров (кластеров, состоящих из одного объекта) после первого шага останется N-1 кластеров, из которых один кластер будет содержать два объекта (наблюдения), а N-2 кластеров будут по-прежнему состоять всего лишь из одного объекта. Отметим, что на втором шаге возможны различные методы объединения между собой N-2 кластеров. Это вызвано тем, что один из этих кластеров уже содержит два объекта. По этой причине возникает два основных вопроса: 

  • как вычислять координаты такого кластера из двух (а далее и более двух) объектов; 
  • как вычислять расстояние до таких "полиобъектных" кластеров от "монокластеров" и между "полиобъектными" кластерами.

     Эти отнюдь не риторические вопросы, в конечном счете, и определяют окончательную  структуру итоговых кластеров (под  структурой кластеров подразумевается  состав отдельных кластеров и  их взаимное расположение в многомерном пространстве). Р. Рудакова. Статистика. Разнообразные комбинации метрик и методов вычисления координат и взаимных расстояний кластеров и порождают то многообразие методов кластерного анализа, о котором было сказано выше. На втором шаге в зависимости от выбранных методов вычисления координат кластера состоящего из нескольких объектов и способа вычисления межкластерных расстояний возможно либо повторное объединение двух отдельных наблюдений в новый кластер, либо присоединение одного нового наблюдения к кластеру, состоящему из двух объектов. Для удобства большинство программ агломеративно-иерархических методов по окончании работы могут предоставить для просмотра два основных графика. Первый график называется дендрограммой (от греческого dendron - дерево), отражающий процесс агломерации, слияния отдельных наблюдений в единый окончательный кластер. Этот график схематично напоминает дерево, за что и получил такое название. Ниже приведен рисунок с такой дендрограммой для нашего обучающего примера состоящего из 5 наблюдений по двум переменным.

     

     Вертикальная  ось такого графика представляет собой ось межкластерного расстояния, а по горизонтальной оси отмечены номера объектов - случаев (cases) использованных в анализе. Из этой дендрограммы видно, что вначале объединяются в один кластер объекты №1 и №2, поскольку расстояние между ними самое минимальное и равно 1. Это слияние отображается на графике горизонтальной линией соединяющей вертикальные отрезки выходящие из точек помеченных как С_1 и С_2. Обратим внимание на то, что сама горизонтальная линия проходит точно на уровне межкластерного расстояния равного 1. Далее на втором шаге к этому кластеру, включающему в себя уже два объекта, присоединяется объект №3, обозначенный как С_3. На следующем шаге происходит объединение объектов №4 и №5, расстояние между которыми равно 1,41. И на последнем шаге происходит объединение кластера из объектов 1, 2 и 3 с кластером из объектов 4 и 5. На графике видно, что расстояние между этими двумя предпоследними кластерами (последний кластер включает в себя все 5 объектов) больше 5, но меньше 6, поскольку верхняя горизонтальная линия соединяющая два предпоследних кластера проходит на уровне примерно равном 7, а уровень соединения объектов 4 и 5 равен 1,41. 

     Расположенная ниже дендрограмма получена при анализе  реального массива данных состоящего из 70 объектов, каждый из которых характеризовался 12 признаками. 

     

     Из  графика видно, что на последнем  шаге, когда произошло слияние  двух последних кластеров, расстояние между ними порядка 200 единиц. Видно, что первый кластер (условимся, что он расположен слева) включает в себя гораздо меньше объектов (9), чем второй кластер (расположенный справа). Поскольку всего в анализе использовано 70 объектов, то во втором кластере 61 объект.  

     Ниже  приведен увеличенный участок дендрограммы на котором достаточно отчетливо видны номера наблюдений, обозначаемые как С_65, С_58 и т.д. (слева направо): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 и т.д. 

      Видно, что объект 44 представляет собой  монокластер объединяющийся на предпоследнем  шаге с правым кластером и затем  уже на последнем шаге все наблюдения объединяются в один кластер. 

     Второй  график, который строится в таких  процедурах - это график изменения межкластерных расстояний на каждом шаге объединения. Ниже приведен подобный график для приведенной выше дендрограммы. 

     

     В ряде программ имеется возможность вывести в табличном виде результаты объединения объектов на каждом шаге кластеризации. В большинстве таких таблиц во избежание путаницы используется различная терминология для обозначения исходных наблюдений - монокластеров, и собственно кластеров состоящих из двух и более наблюдений. В англоязычных статистических пакетах исходные наблюдения (строки матрицы данных) обозначаются как "случай" – case. 

     4. Сущность и содержание  латентных признаков 

       Основной  базой исходной информации для эконометрических исследований служат данные статистики либо данные бухгалтерского учета. Исследуемые эконометрикой взаимосвязи стохастичны по своей природе, т. е. позволяют устанавливать лишь вероятностные соотношения между значениями x и y, являющимися случайными величинами.

       В эконометрической модели любого типа все участвующие в ней переменные, поддающиеся измерению, разделяются на:

         – «входные» переменные, так называемые  экзогенные («внешние», автономные), объясняющие – в определенной степени управляемые;

         – «выходные» переменные, так называемые эндогенные (формируются в процессе и «внутри» социально-экономической системы) – объясняемые переменные;

         – латентные (скрытые, т. е. не поддающиеся непосредственному измерению) случайные «остаточные» переменные.

       Это экономические величины, не входящие в уравнения эконометрических моделей, но оказывающие влияние на совместно зависимые переменные. Возмущения являются стохастическими переменными. В отличие от совместно зависимых и предопределенных переменных, их значения неизвестны, они находятся как остатки по определенным уравнениям после оценки неизвестных параметров модели.

     Заключение 

     Анализ  данных — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пиатецким-Шапиро в 1989 году.

     Английское  словосочетание «Data Mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания: просев информации, добыча данных, извлечение данных, а, также,интеллектуальный анализ данных. Более полным и точным является словосочетание обнаружение знаний в базах данных(knowledge discovering in databases, KDD).

     Основу  методов анализа данных  составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решенийискусственных нейронных сетейгенетических алгоритмовэволюционного программирования,ассоциативной памятинечеткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Информация о работе Робастные процедуры анализа данных