Статистический анализ

Автор: Пользователь скрыл имя, 24 Октября 2011 в 14:11, лабораторная работа

Описание работы

При статистическом анализе информации принято считать, что результаты измерений подчиняются нормальному закону распределения. Однако на практике это не всегда верно. Наблюдаются отклонения как односторонние , так и двусторонние. Во избежание искажения значений характеристик распределения при обработке информации необходимо очистить ее от засорения случайными отклонениями.

Работа содержит 1 файл

IVЛина раб.doc

— 464.50 Кб (Скачать)

и

ц,

п

р

и

в

е

д

е

н

н

ы

х

 

в

ы

ш

е.

П

р

а

в

а

я

т

а

б

л

и

ц

а

 

с

о

д

е

р

ж

и

т

р

е

з

у

л

ь

т

а

т

ы

п

р

о

в

е

р

к

и,

а

 

л

е

в

а

я

 

 

ф

о

р

м

у

л

ы

,

к

о

т

о

р

ы

е

 

с

л

е

д

у

е

т

 

в

в

е

с

т

и

в

 

я

ч

е

й

к

и,

ч

т

о

б

ы

 

э

т

и

 

р

е

з

у

л

ь

т

а

т

ы

п

о

л

у

ч

и

т

ь.

Т

р

е

т

ь

е

 

п

р

о

в

е

р

е

н

н

о

е

 

з

н

а

ч

е

н

и

е

м

о

ж

е

т

 

б

ы

т

ь

о

с

т

а

в

л

е

н

о

,

т

а

к

 

к

а

к

 

з

н

а

ч

е

н

и

е

S

расч

б

л

и

з

к

о

 

к

 

 

S

кр

.

Т

а

к

и

е

 

п

р

о

в

е

р

к

и

 

н

е

о

б

х

о

д

и

м

о

 

в

ы

п

о

л

н

и

т

ь

 

д

л

я

 

в

с

е

х

п

о

к

а

з

а

т

е

л

е

й

.

В

 

и

т

о

г

е

 

н

а

н

о

в

ы

й

 

л

и

с

т

с

л

е

д

у

е

т

 

п

е

р

е

н

е

с

т

и

и

с

х

о

д

н

ы

е

с

т

а

т

и

с

т

и

ч

е

с

к

и

е

д

а

н

н

ы

е

и

 

и

с

к

л

ю

ч

и

т

ь

 

п

о

л

н

о

с

т

ь

ю

 

к

а

ж

д

у

ю

с

т

р

о

к

у,

в

 

к

о

т

о

р

о

й

е

с

т

ь

в

ы

б

р

о

с

х

о

т

я

б

ы

о

д

н

о

г

о

и

з

п

о

к

а

з

а

т

е

л

е

й

.

В

е

с

ь

п

о

с

л

е

д

у

ю

щ

и

й

 

с

т

а

т

и

с

т

и

ч

е

с

к

и

й

а

н

а

л

и

з

п

р

о

в

о

д

и

т

ь

 

т

о

л

ь

к

о

п

о

о

ч

и

щ

е

н

н

ы

м

 

д

а

н

н

ы

м 

§ 4.2. Проверка закона распределения

. 

      

П

р

е

д

в

а

р

и

т

е

л

ь

н

ы

й

а

н

а

л

и

з

с

т

а

т

и

с

т

и

ч

е

с

к

и

х

 

д

а

н

н

ы

х

 

з

а

к

л

ю

ч

а

е

т

с

я

 

в

 

п

р

о

в

е

р

к

е

с

о

о

т

в

е

т

с

т

в

и

я

и

х

п

р

е

д

п

о

л

о

ж

е

н

и

ю

о

 

н

о

р

м

а

л

ь

н

о

м

р

а

с

п

р

е

д

е

л

е

н

и

и

 

п

а

р

а

м

е

т

р

о

в

,

д

л

я

 

ч

е

г

о

с

т

р

о

и

т

с

я

г

и

с

т

о

г

р

а

м

м

а

 

и

 

о

п

р

е

д

е

л

я

ю

т

с

я

в

ы

б

о

р

о

ч

н

ы

е

ч

и

с

л

о

в

ы

е

х

а

р

а

к

т

е

р

и

с

т

и

к

и .

Д

л

я

 

п

о

с

т

р

о

е

н

и

я

г

и

с

т

о

г

р

а

м

м

ы

 

н

е

о

б

х

о

д

и

м

о

в

ы

п

о

л

н

и

т

ь

 

т

а

к

у

ю

 

п

о

с

л

е

д

о

в

а

т

е

л

ь

н

о

с

т

ь

д

е

й

с

т

в

и

й:

  • разместить на рабочем листе Excel статистические данные  наблюдений (без выбросов);

    • Сервис – Анализ данных – Гистограмма  (рис.1);
     
     

      Рис.1.Выбор  инструмента анализа. 

    • в появившемся  диалоговом окне  Гистограмма ввести в поле Входные данные  интервал (диапазон) ячеек, содержащий исходные данные, и отметить поле Метки , если таблица данных имеет заголовки;
    • ввести в поле Параметры выхода адрес ячейки, с которой должны размещаться выходные данные (выходной интервал) и щелкнуть пункт Вывод графика ;
    • OK.
     
     
     

      Для Y1: 

    :         

    Для X8: 

               

    Для X11:

              

                
     
     
     
     

    Для X12:

            

                  

    Для X13: 

                   

    Для X17 

                 

                    
     

    Числовые  характеристики для всех признаков оцениваются по выборке с помощью инструмента анализа  Описательная статистика.,  вызов которого осуществляется аналогично (см. рис.1 ). В появившемся диалоговом окне  Описательная статистика необходимо ввести таким же образом Входные данные и Параметры вывода , только вместо пункта Вывод графика следует отметить пункт Итоговая статистика .

          Результаты  применения инструмента Описательная статистика к данным наблюдений по результативному признаку  Y1, X8, X11, X12, X13, X17 приведены ниже (Рис.2). 

      Y1 X8 X11 X12 X13 X17
                 
    Среднее 7,576939 0,965102 13350,02 81,97837 24567,1 19,73
    Стандартная ошибка 0,282625 0,066322 1077,801 10,14631 1977,465 0,682347
    Медиана 7,24 0,86 11115 53,81 20193 19,13
    Мода 5,22 0,67 #Н/Д #Н/Д #Н/Д #Н/Д
    Стандартное отклонение 1,978378 0,464256 7544,606 71,02415 13842,26 4,776427
    Дисперсия выборки 3,91398 0,215534 56921082 5044,431 1,92E+08 22,81426
    Эксцесс -0,68143 0,527651 -0,06573 6,978921 -0,30901 -0,35873
    Асимметричность 0,219349 0,692057 0,883857 2,368518 0,774334 0,157208
    Интервал 8,32 2,17 29274 377,69 53211 21,91
    Минимум 3,78 0,03 3351 13,58 5736 8,62
    Максимум 12,1 2,2 32625 391,27 58947 30,53
    Сумма 371,27 47,29 654151 4016,94 1203788 966,77
    Счет 49 49 49 49 49 49
     

    Рис.2. Описательная статистика 

    Как видно, результаты  Описательной статистики дают возможность оценить справедливость предположения о нормальном распределении признаков: эксцесс и асимметричность невелики, хотя и отличаются от 0. Нормальный закон распределения факторных признаков подтверждается еще и тем, что значения медианы и моды  у них совпадают или близки. 

    § 4.3. Корреляционный анализ 

          Предварительный анализ тесноты взаимосвязи  параметров многомерной модели осуществляется по оценке корреляционной матрицы генеральной совокупности  X по наблюдениям. Для этого используется инструмент Анализ данных в соответствии со следующим алгоритмом :

    • разместить на рабочем листе Excel статистические данные в столбцах с соответствующими заголовками (именами переменных );
    • Сервис – Анализ данных – Корреляция ;
    • в появившемся диалоговом окне Корреляция в соответствующие  поля ввести с помощью мыши входные данные и параметры вывода;
    • после щелчка мышью по кнопке OK на рабочем листе появится матрица, содержащая оценки парных коэффициентов корреляции.
    • Отобрать для дальнейшего анализа пары переменных, имеющие наибольшие значения парных коэффициентов корреляции

    ( 0,4 ), учитывая, что чем меньше коэффициент rij , тем слабее их связь. 
     

      Y1 X8 X11 X12 X13 X17
    Y1 1          
    X8 0,299688 1        
    X11 0,460199 0,177402 1      
    X12 0,573565 0,231538 0,845209 1    
    X13 0,369172 0,137292 0,84205 0,544999 1  
    X17 0,011144 -0,2048 0,052727 0,023138 0,106803 1
     
     
       
    • Такими  парами в приведенном примере  являются:  Y1–X11; Y1–X12;       X11-X12; X11-X13; X12-X13.

          Дальнейший  анализ статистических данных зависит от размерности принимаемой модели. Простейший вариант – двумерная модель. 

    §4.4. Регрессионный анализ двумерной модели. 

          В среде  Excel  для двумерного случая линейной регрессии предусмотрено несколько инструментов : статистические функции (КОРРЕЛ, ЛИНЕЙН, ТЕНДЕНЦИЯ и др.) ; инструмент  Регрессия надстройки Пакет анализа ; графические средства при работе с диаграммой  – построение линии тренда.     

          С помощью Пакета анализа можно получить искомую информацию , следуя такому алгоритму :

    • разместить  на рабочем листе  Excel в двух смежных столбцах с соответствующими заголовками  статистические данные по двум признакам, подлежащим исследованию (например, X11 и X12);
    • Сервис – Анализ данных – Регрессия ;
    • в появившемся диалоговом окне Регрессия ввести входные данные в поля Входной интервал Y (X12) и Входной интервал X (X11) и щелкнуть по полю Метки , чтобы заголовки не вошли в интервалы данных;
    • ввести параметры вывода  в поле  Выходной интервал : адрес левого верхнего угла таблицы результатов или щелкнуть поле Новый рабочий лист для вывода на другой лист  (см. рис.4);
    • для наглядности можно вывести график , щелкнув по полю График подбора ;
    • OK.

    Результат работы инструмента Регрессия приведен на рис.5. Итак, выборочное уравнение линейной регрессии  X13  на  X11  имеет вид :

          Выходная  таблица содержит  коэффициент  детерминации R2 =0,714378, что означает, что полученная модель приблизительно на  71% отражает зависимость  X12 от X11.

                В разделе  Дисперсионный анализ приведены значения таких величин :

    df  – число степеней свободы ; SS –сумма квадратов отклонений ; MS – дисперсия  ; F – расчетное значение  F–критерия. Поскольку  критическое значение критерия Фишера  Fкр = 4,03 (m1=1; m2=50; )  Fрасч =28,63 > Fкр , и, следовательно с вероятностью  гипотеза об отсутствии связи между рассматриваемыми признаками отвергается. Это означает, что уравнение в целом статистически значимо, т.е. хорошо соответствует данным наблюдений. 
     
     

               
      ВЫВОД ИТОГОВ                
                       
      Регрессион-ная статистика                
      Множествен-ный R 0,845209              
      R-квадрат 0,714378              
      Нормирован-ный R-квадрат 0,7083              
      Стандартная ошибка 38,35959              
      Наблюдения 49              
                       
      Дисперсион-ный анализ                
        df SS MS F Значи-мость F      
      Регрессия 1 172974,1 172974,1 117,5529 2,21E-14      
      Остаток 47 69158,53 1471,458          
      Итого 48 242132,7            
                       
        Коэф-фициен-ты Стандарт-ная ошибка t-статисти-ка P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
      Y-пересечение -24,2438 11,22557 -2,1597 0,03593 -46,8268 -1,6609 -46,8268 -1,6609
      X11 0,007957 0,000734 10,84218 2,21E-14 0,00648 0,009433 0,00648 0,009433
     
                                                                              . Результаты регрессионного анализа . 
                 
                     
                     

    Нижняя часть таблицы содержит такие сведения :

          

    Коэффициенты – оценки параметров  уравнения регрессии;

          

    Стандартная ошибка – стандартные отклонения  ;

          

    t–статистика  – расчетное значение . Таким образом , можно оценить значимость коэффициентов уравнения регрессии, сравнив  расчетное значение  t – статистики с критическим значением, найденным по распределению Стьюдента при уровне значимости  и m=50 : tкр =2,009 . Поскольку > tкр  для обоих коэффициентов , то они являются статистически значимыми при уровне доверительной вероятности  0,95 .

          

    Нижние 95%  и  Верхние 95% определяют нижние и верхние границы доверительных интервалов для коэффициентов уравнения регрессии при . Поскольку доверительные интервалы не содержат  0 , это подтверждает значимость коэффициентов уравнения регрессии. Для получения линии регрессии и ее уравнения в случае двумерной модели удобным инструментом  Excel  является добавление линии тренда к точечной диаграмме, построенной на значениях компонент системы двух заданных случайных величин как результатов наблюдения 
     

             
    X11 X12 y
     
     
               
    26006 167,69              
    23935 186,1              
    22589 220,45              
    21220 169,3              
    7394 39,53              
    11586 40,41              
    26609 102,96              
    7801 37,02              
    11587 45,74              
    9475 40,07              
    10811 45,44              
    6371 41,08              
    26761 136,14 Рис.6            
    4210 42,39              
    3557 37,39  
     
               
    14148 101,78              
    9872 47,55              
    5975 32,61              
    16662 103,25              
    9166 38,95              
    15118 81,32              
    11429 67,26              
    6462 59,92              
    24628 107,34              
    11470 53,81              
    19448 80,83              
    18963 59,42              
    9185 36,96              
    17478 91,43              
    6265 17,16              
    8810 27,29              
    17659 184,33              
    10342 58,42              
    8901 59,4              
    8402 49,63              
    32625 391,27              
    31160 258,62              
    13833 123,68              
    6391 37,21              
    11115 53,37              
    6555 32,87              
    11085 45,63              
    9484 48,41              
    3967 13,58              
    15283 63,99              
    20874 104,55              
    3351 25,76              
    6338 29,52              
    11795 78,11              
     
     
     
     
     
     
                       
     
                         
     
         
     
    Алгоритм  содержит такие действия :
    • разместить на рабочем листе  Excel  в двух смежных столбцах исходные данные таким образом, чтобы первым был независимый показатель;
    • Вставка – Диаграмма – Точечная (первый вариант) – Далее ;
    • на закладке Диапазон данных ввести диапазон , занимаемый всей таблицей, для чего выделить мышью оба столбца ;
    • на закладке Ряд ввести в поле Значения  X диапазон значений независимой величины , а в поле  Значения  Y диапазон значений величины, регрессию которой следует оценить (см.рис.7 );
    • Далее – на закладке  Заголовки  ввести заголовки осей и диаграммы – Далее – указать , где разместить диаграмму (на имеющемся листе ) – Готово;
    • откорректировать появившуюся диаграмму, особенно формат осей и надписи, для чего щелкнуть правой кнопкой мыши по оси или надписи и в появившемся маленьком диалоговом окне щелкнуть по пункту Формат оси (или надписи) ;
    • в появившемся диалоговом окне  Формат оси (или надписи ) выбрать нужную закладку и внести необходимые изменения  – OK ;

    откорректировать  полученное корреляционное поле, исключив резко выделяющиеся из общего множества  отдельные точки;

    • щелкнуть правой кнопкой мыши по любой точке диаграммы и в появившемся диалоговом окне  выбрать пункт меню  Добавить линию тренда;
    • в появившемся диалоговом окне на закладке Тип выбрать тип зависимости : линейный или полиномиальный ( указать порядок приближения ) ;
    • щелкнуть по закладке Параметры и в появившемся после этого диалоговом окне щелкнуть пункты  показывать уравнение на диаграмме  и  поместить на диаграмму величину достоверности аппроксимации (R^2) ;
    • записать уравнение регрессии , заменив  y и на имена результативного и факторного признаков соответственно  и оценить значимость полученного уравнения с помощью  R^2.

          На  рис.6 приведены: точечная диаграмма зависимости X12 от X11 и две линии

     тренда  –  линейная и нелинейная.

    Коэффициент детерминации в первом случае равен 0,7144 , а  для кубической зависимости  R2 = 0,7747 , т.е. предпочтительнее использовать полиномиальную зависимость как лучше согласующуюся со статистическими данными.

          Для остальных двух отобранных пар факторных  признаков необходимо выполнить такие же действия и получить аналогичные оценки функций регрессии. 
     

       
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
         
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                   
     
                         
     
                         
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     

    П

    р

    и

    д

    н

    е

    п

    р

    о

    в

    с

    к

    а

    я

     

    а

    к

    а

    д

    а

    м

    и

    я

    с

    т

    р

    о

    и

    т

    е

    л

    ь

    с

    т

    в

    а

     

    и

     

    а

    р

    х

    и

    т

    е

    к

    т

    у

    р

    ы 
     
     
     
     

    К

    а

    ф

    е

    д

    р

    а: 
     
     
     
     

    Л

    б

    о

    р

    а

    т

    о

    р

    н

    а

    я

    р

    а

    б

    о

    т

    а

    3

    п

    о

    т

    е

    м

    е:

    С

    т

    а

    т

    и

    с

    т

    и

    ч

    е

    с

    к

    и

    й

    а

    н

    а

    л

    и

    з 
     
     
     
     
     
     
     
     
     
     
     
     
     

                                                                   

    В

    ы

    п

    о

    л

    н

    и

    л

    а

     

    с

    т

    .

    г

    р

     

    516:

    Б

    у

    л

    а

    в

    ч

    у

    к

     

    А

    н

    г

    .

    В

    .

                                                                   

    П

    р

    о

    в

    е

    р

    и

    л

    а

     

    д

    о

    ц

    .

    :

    З

    а

    п

    о

    р

    о

    ж

    е

    ц 
     
     
     
     
     
     
     
     
     
     
     
     
     
     

    Д

    н

    е

    п

    р

    о

    п

    е

    т

    р

    о

    в

    с

    к

    2010

Информация о работе Статистический анализ