Статистика нечисловой природы

Автор: Пользователь скрыл имя, 21 Ноября 2011 в 18:38, реферат

Описание работы

Статистика объектов нечисловой природы как часть прикладной статистики. Согласно общепринятой в настоящее время классификации статистических методов прикладная статистика делится на следующие четыре области:
статистика (числовых) случайных величин (см. главу 4),
многомерный статистический анализ (см. главу 5),
статистика временных рядов и случайных процессов (см. главу 6),
статистика объектов нечисловой природы (см. главу 8),.

Работа содержит 1 файл

Статистика объектов нечисловой природы как часть прикладной статистики.docx

— 29.29 Кб (Скачать)

     Статистика  объектов нечисловой природы как часть  прикладной статистики. Согласно общепринятой в настоящее время классификации статистических методов прикладная статистика делится на следующие четыре области:

     статистика (числовых) случайных величин (см. главу 4),

     многомерный статистический анализ (см. главу 5),

     статистика  временных рядов и случайных  процессов (см. главу 6),

     статистика  объектов нечисловой природы (см. главу 8),.

     Первые  три из этих областей являются классическими. Они были хорошо известны еще в  первой половине ХХ в. Остановимся на четвертой, сравнительно недавно вошедшей в массовое сознание специалистов. Ее именуют также статистикой нечисловых данных или попросту нечисловой статистикой. Анализ динамики развития эконометрики и прикладной статистики приводит к выводу, что в XXI в. она станет центральной областью прикладной статистики, поскольку содержит наиболее общие подходы и результаты.

     Исходный  объект в прикладной математической статистике - это выборка. В вероятностной теории статистики выборка - это совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры.

     Примерами объектов нечисловой природы являются (подробнее см. главу 8):

     значения  качественных признаков, т.е. результаты кодировки объектов с помощью  заданного перечня категорий (градаций);

     упорядочения (ранжировки) экспертами образцов продукции (при оценке её технического уровня и конкурентоспособности)) или заявок на проведение научных работ (при проведении конкурсов на выделение грантов);

     классификации, т.е. разбиения объектов на группы сходных  между собой (кластеры);

     толерантности, т.е. бинарные отношения, описывающие  сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального  формирования экспертных советов внутри определенной области науки;

     результаты  парных сравнений или контроля качества продукции по альтернативному признаку ("годен" - "брак"), т.е. последовательности из 0 и 1;

     множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни  возможных причин аварии, составленные экспертами независимо друг от друга;

     слова, предложения, тексты;

     вектора, координаты которых - совокупность значений разнотипных признаков, например, результат  составления статистического отчета о научно-технической деятельности (т.н. форма № 1-наука) или заполненная  компьютеризированная история болезни, в которой часть признаков  носит качественный характер, а часть - количественный;

     ответы  на вопросы экспертной, маркетинговой  или социологической анкеты, часть  из которых носит количественный характер (возможно, интервальный), часть  сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д.

     Интервальные  данные (см. выше) тоже можно рассматривать как пример объектов нечисловой природы, а именно, как частный случай нечетких множеств.

     С начала 70-х годов под влиянием запросов прикладных исследований в  социально-экономических, технических, медицинских науках в России активно  развивается статистика объектов нечисловой природы, известная также как  статистика нечисловых данных или нечисловая статистика. В создании этой сравнительно новой области эконометрики и  прикладной математической статистики приоритет принадлежит российским ученым.

     Большую роль сыграл основанный в 1973 г. научный  семинар "Экспертные оценки и анализ данных". В 60-е годы советское научное  сообщество стало интересоваться методами экспертных оценок (об их истории и  современном состоянии см. главу 12). Как следствие, началось знакомство с конкретными математизированными теориями, связанными с этими методами. Речь идет о репрезентативной теории измерений, ставшей известной в нашей стране по статье П.Суппеса и Дж.Зинеса в сборнике [17] и книге И.Пфанцагля [18], о теории нечеткости, современный этап которой начался с работ Л.А.Заде [19], теории парных сравнений, описанной в монографии Г.Дэвида [20]. К этому кругу идей примыкают теория случайных множеств (см., например, книгу Ж.Матерона [21]) и методы многомерного шкалирования (описаны, в частности, в монографиях А.Ю.Терехиной [22] и В.Т.Перекреста [23]). Но наибольшее влияние оказали идеи Дж.Кемени, который аксиоматически ввел расстояние между ранжировками (теперь оно именуется в литературе расстоянием Кемени) и предложил использовать в качестве средней величины решение оптимизационной задачи (теперь - медиана Кемени). Его скромная книжка [24], написанная в соавторстве с Дж.Снеллом, породила большой поток исследований.

     В течение 70-х годов на основе запросов теории экспертных оценок (а также  социологии, экономики, техники и  медицины) развивались конкретные направления  статистики объектов нечисловой природы. Были установлены связи между  конкретными видами таких объектов, разработаны для них вероятностные  модели (см. главу 8). Научные итоги этого периода подведены в монографиях [14,25,26]).

     Следующий этап - выделение статистики объектов нечисловой природы в качестве самостоятельного направления в эконометрике и  прикладной статистике, ядром которого являются методы статистического анализа  данных произвольной природы. Программа  развития этого нового научного направления  впервые была сформулирована в статье [27]. Реализация этой программы была осуществлена в 80-е годы. Для работ  этого периода характерна сосредоточенность  на внутренних проблемах нечисловой статистики. Ссылки на конкретные монографии, сборники, статьи и иные публикации нескольких десятков авторов приведены  в главе 8. Отметим лишь сборник  научных статей [28], полностью посвященный  нечисловой статистике.

     К 90-м годам статистика объектов нечисловой природы с теоретической точки  зрения была достаточно хорошо развита, основные идеи, подходы и методы были разработаны и изучены математически, в частности, доказано достаточно много  теорем. Однако она оставалась недостаточно апробированной на практике. Это было связано как с ее сравнительной молодостью, так и с общеизвестными особенностями организации науки в 80-е годы, когда отсутствовали достаточные стимулы к тому, чтобы теоретики занялись широким внедрением своих результатов. И в 90-е годы наступило время от математико-статистических исследований перейти к применению полученных результатов на практике.

     Следует отметить, что в статистике объектов нечисловой природы, как и в других областях эконометрики, прикладной математической статистики и прикладной математики вообще, одна и та же математическая схема может с успехом применяться  и в технических исследованиях, и в менеджменте, и в экономике, и в геологии, и в медицине, и в социологии, и для анализа  экспертных оценок, и во многих иных областях, а потому ее лучше всего формулировать и изучать в наиболее общем виде, для объектов произвольной природы.

     Основные  идеи статистики объектов нечисловой природы. В чем принципиальная новизна нечисловой статистики? Для классической математической статистики характерна операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. В нечисловой же статистике нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы.

     Кратко  рассмотрим несколько идей, развиваемых  в статистике объектов нечисловой природы  для данных, лежащих в пространствах  произвольного вида. Решаются классические задачи описания данных, оценивания, проверки гипотез - но для неклассических данных, а потому неклассическими методами.

     Первой  обсудим проблему определения средних  величин. В рамках репрезентативной теории измерений удается указать  вид средних величин, соответствующих  тем или иным шкалам измерения (см. главу 3). В классической математической статистике средние величины вводят с помощью операций сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операций сложения или упорядочения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Для теоретического среднего это - задача минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке. При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственным элементом пространства, а состоять из множества таких элементов, которое может оказаться и пустым. Тем не менее удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. установить сходимость эмпирических средних к теоретическим .

     Оказалось, что методы доказательства законов  больших чисел допускают существенно  более широкую область применения, чем та, для которой они были разработаны. А именно, удалось изучить  асимптотику решений экстремальных  статистических задач, к которым, как  известно, сводится большинство постановок прикладной статистики. В частности, кроме законов больших чисел  установлена и состоятельность  оценок минимального контраста, в том  числе оценок максимального правдоподобия  и робастных оценок. К настоящему времени подобные оценки изучены  также и в интервальной статистике.

     В статистике в пространствах произвольной природы большую роль играют непараметрические  оценки плотности, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В нечисловой статистике предложен и изучен ряд типов непараметрических оценок плотности в пространствах произвольной природы, в частности, доказана их состоятельность, изучена скорость сходимости и установлен примечательный факт совпадения наилучшей скорости сходимости в произвольном случае с той, которая имеет быть в классической теории для числовых случайных величин.

     Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач - либо на непараметрической теории - и тогда используются алгоритмы на основе непараметрических оценок плотности.

     Для проверки гипотез могут быть использованы статистики интегрального типа, в  частности, типа омега-квадрат. Любопытно, что предельная теория таких статистик, построенная первоначально в  классической постановке [29], приобрела  естественный (завершенный, изящный) вид  именно для пространств произвольного вида [30], поскольку при этом удалось провести рассуждения, опираясь на базовые математические соотношения, а не на те частные (с общей точки зрения), что были связаны с конечномерным пространством.

     Представляют  практический интерес результаты, связанные  с конкретными областями статистики объектов нечисловой природы, в частности, со статистикой нечетких множеств, развитой в книге [31], и со статистикой  случайных множеств [14] (следует отметить, что теория нечетких множеств в определенном смысле сводится к теории случайных  множеств [14,31]), с непараметрической  теорией парных сравнений, с аксиоматическим  введением метрик в конкретных пространствах  объектов нечисловой природы [28], и с рядом других конкретных постановок (см. главу 8).

     Для анализа нечисловых, в частности, экспертных данных весьма важны методы классификации. С другой стороны, наиболее естественно ставить и решать задачи классификации, основанные на использовании  расстояний или показателей различия, в рамках статистики объектов нечисловой природы. Это касается как распознавания  образов с учителем (другими словами, дискриминантного анализа), так и распознавания образов без учителя (т.е. кластерного анализа). Современное состояние дискриминантного и кластерного анализа с точки зрения статистики объектов нечисловой природы отражено в главе 5.

     Статистические  методы анализа нечисловых данных особенно хорошо приспособлены для применения в экономике, социологии и экспертных оценках, поскольку в этих областях от 50% до 90% данных являются нечисловыми.

Информация о работе Статистика нечисловой природы