Автор: Пользователь скрыл имя, 13 Января 2011 в 01:29, курсовая работа
Целью курсовой работы является регрессионный анализ зависимости между денежными доходами на душу и потребительскими расходами на душу населения по данным 2007 года и анализ динамики естественного прироста, убыли населения Республики Беларусь.
Введение 3
1 Описание экономических понятий, используемых в работе 4
2 Описание математического аппарата и статистических критериев, используемых в работе 9
2.1 Статистическая группировка и основные характеристики
2.2 Основы регрессионного и корреляционного анализа 12
2.3 Статистические показатели динамики социально – экономических явлений
3 Статистический анализ исходных данных 18
3.1 Выявление и удаление из статистической выборки аномальных наблюдений 18
3.2 Оценка описательных статистических параметров совокупности 19
3.3 Оценка связи между факторным и результативным признаком 22
3.4 Построение линейной регрессионной модели и оценка ее качества 24
3.5 Расчет и анализ показателей ряда динамики 27
3.6 Прогноз социально-экономического показателя 30
Заключение 33
Список использованных источников 34
Приложение А Исходные данные для статистического анализа 35
Приложение Б Расчет остаточной дисперсии
3 Статистический анализ
3.1
Выявление и удаление из статистической
выборки аномальных наблюдений
В приложении А представлена таблица с исходными данными (наблюдения по 79 областям РФ). Результативным признаком (Y) является потребительские расходы, руб.; факторным (Х)– денежные доходы на душу населения, руб.
Проведем
анализ статистических «выбросов» в наблюдениях
при формировании аналитических группировок
(выбор аномальных наблюдений). Графическое
представление данных приведено на рисунке
3.1.
Рисунок
3.1 – Анализ аномальных явлений по результативному
признаку
Как
видно из рисунка 3.1, нехарактерно большие
значение результативного показателя
соответствуют наблюдениям номер 18 –
г. Москва (Центральный федеральный округ)
25 773,1 руб. и номер 57 – Тюменская область
(Уральский федеральный округ), 19 113,5 руб.
Исключим данные наблюдения из анализа
как статистические выбросы. В рассмотрении
остаются 77 областей (рисунок 3.2).
Рисунок
3.2 – Анализ аномальных явлений по результативному
признаку
Проведем
анализ аномальных наблюдений по факторному
признаку (рисунок 3.3).
Рисунок
3.3 – Анализ аномальных явлений по факторному
признаку
Как на рисунке 3.3, аномальных значений по факторному признаку не наблюдается.
Для
дальнейшего статистического
3.2
Оценка описательных
Построим вариационный ряд, характеризующий распределение областей по величие потребительских расходов. Упорядочим исходные данные (приложение А) по величине возрастания результативного признака с помощью функции «Сортировка» меню «Сервис».
Максимальное и минимальное значение потребительских расходов населения соответственно равны ymin = 1 820,3 руб. (Республика Ингушетия), ymax = 13 022,2 руб. (г. Санкт-Петербург). (Также можно определить при помощи статистических функций МАКС() и МИН()).
Количество
интервалов вариационного ряда равно:
.
Высоту
интервала равна
руб.
Границы интервалов определим по формулам:
интервал 1 [хmin; хmin+ k];
интервал 2 [хmin+k; хmin+ 2k] и т.д.
Значения частот определяем при помощи процедуры «Гистограмма» (меню «Сервис», раздел «Анализ данных»). Входной интервал – столбец со значениями потребительских расходов, интервал карманов – границы интервалов, записанные в столбец.
Результаты
вычислений представлены на рисунке 3.4.
Рисунок
3.4– Определение частот в интервалах
Вариационный
ряд представлен в таблице 3.1.
Таблица 3.1 - Вариационный ряд
№ | Границы интервала, руб. | Частота признака | Накопленная частота | Относительная наколенная частота | |
1 | 1 820,30 | 3 420,57 | 2 | 2 | 0,03 |
2 | 3 420,57 | 5 020,84 | 9 | 11 | 0,14 |
3 | 5 020,84 | 6 621,11 | 24 | 35 | 0,45 |
4 | 6 621,11 | 8 221,39 | 23 | 58 | 0,75 |
5 | 8 221,39 | 9 821,66 | 8 | 66 | 0,86 |
6 | 9 821,66 | 11 421,93 | 6 | 72 | 0,94 |
7 | 11 421,93 | 13 022,20 | 5 | 77 | 1,00 |
Накопленная частота определяется как сумма частот всех предшествующих интервалов.
Гистограмма,
построенная по вариационному ряду,
приведена на рисунке 3.5.
Рисунок
3.5 – Гистограмма по результативному признаку
Проанализировав
куммуляту результативного
Модальным
интервалом является интервал под номером
3, т.к. ему соответствует максимальное
значение частоты 24 (таблица 3.1). Значение
моды определим по формуле:
руб.
Таким образом, наиболее распространенное значение результативного признака 6 521,097 руб.
Медиану
определим по формуле (4) или с помощью
функции МЕДИАНА(). Медианным интервалом
является интервал под номером 4, т.к. значение
накопленных частот превышает 50 % всех
наблюдений:
руб.
Следовательно, у половины областей значение потребительских расходов на душу населения больше 6 864,63 руб., а у половины меньше.
Определим
показатели описательной статистики (таблица
3.2) для двух факторов в прикладном пакете
Microsoft Excel. Данные характеристики вариационного
ряда можно определить, используя режим
«Описательная статистика» меню «Сервис»,
команды «Анализ данных». Входной интервал
- это значения результативного (потребительские
расходы) и факторного (денежные доходы)
признаков, а в параметрах вывода поставить
метку «Итоговая статистика».
Таблица 3.2 – Описательная статистика
Потребительские расходы на душу, Y | Денежные расходы на душу населения, Х | ||
Среднее | 7 165,42 | Среднее | 10 664,43 |
Стандартная ошибка | 258,16 | Стандартная ошибка | 383,30 |
Медиана | 6 912,2 | Медиана | 9 945,4 |
Мода | - | Мода | - |
Стандартное отклонение | 2 265,32 | Стандартное отклонение | 3 363,43 |
Дисперсия выборки | 5 131 665,77 | Дисперсия выборки | 11 312 650,86 |
Эксцесс | 0,39 | Эксцесс | 1,2 |
Асимметричность | 0,53 | Асимметричность | 0,82 |
Интервал | 11 201,90 | Интервал | 19 040,30 |
Минимум | 1 820,30 | Минимум | 2 483,40 |
Максимум | 13 022,20 | Максимум | 21 523,70 |
Сумма | 551 737,20 | Сумма | 821 161 |
Счет | 77 | Счет | 77 |
Различия в значениях медианы и моды при вычислении в модуле «Описательная статистика» объясняется тем, что в последнем случае анализируется моментный, а не интервальный временной ряд.
В практическом анализе оценка вариации имеет большое значение. Рассчитает дисперсию, среднее квадратическое отклонение и коэффициент вариации. Величину дисперсии результативного признака и среднее значение можно взять из результатов вычислений процедуры «Описательная статистика».
Среднее значение величины результативного признака равно = 7 165,42 руб. Дисперсия равна 5 131 665,77 руб.2, а среднее квадратическое отклонение - = 2 265,32 руб. Т.е. в среднем значения величины потребительских расходов на душу населения отклоняются от своего среднего арифметического значения на 2 265,32 руб.
Для
оценки меры вариации используется коэффициент
вариации (ν):
Коэффициент вариации может также использоваться для характеристики степени однородности исследуемой совокупности. Исследуемую совокупность характеризуется как однородная, т.к. статистически неоднородными признаются совокупности, имеющие коэффициент вариации больше 30–35 %.
Показателями
формы распределения служат эксцесс и
асимметричность. В данном случае эксцесс
равен 1,2; асимметричность равна 0,82. Показатель
асимметричности больше 0,5, следовательно,
асимметрия считается существенной, а
знак «+» указывает на правостороннюю
асимметрию. Т.к. эксцесс > 0, то распределение
островершинное по сравнению с графиком
нормального распределения. Данные выводы
подтверждаются формой графика на рисунке
3.5
3.3
Оценка связи между факторным и результативным
признаком
Построим аналитическую группировку, характеризующую зависимость между результативным признаком (потребительские расходы на душу населения) и факторным (денежные доходы на душу). Определим минимальное и максимальное значение факторного признака с помощью функций МИН() и МАКС() (меню «Вставка функции», выбрать категории функции «Статистические»).
Полученные значения минимального и максимального значений факторного признака равны соответственно равны 2 483,7 и 21 523,7 руб. Используя формулу (1), определим количество интервалов n = 7,27 (округляя число получим число интервалов 7). По формуле (2) вычислим шаг интервального ряда k= 2 720,04 руб.
Верхняя
граница каждого интервала определяется
по следующей формуле (полученные значения
используется в меню «Гистограмма» как
карман интервалов):
x = xmin + i*k,
где i – порядковый номер интервала.
Значения частот в интервальном ряду определим при помощи функции «Гистограмма» пакета «Анализ данных» меню «Сервис»:
1) входной интервал – исходные значения факторного признака;
2) интервал карманов – значения границ интервалов факторного признака.
Результаты
вычислений представлены в таблице 3.3.
Таблица 3.3 – Аналитическая группировка, характеризующая зависимость между факторным и результативным признаками
Номер
интервала |
Границы интервала, руб. | Частота признака | Среднее значение фактора Х, руб. | Среднее значение фактора Y, руб. | |
1 | 2 483,40 | 5 203,44 | 1 | 3 868,65 | 2 225,60 |
2 | 5 203,44 | 7 923,49 | 13 | 7 245,65 | 4 749,54 |
3 | 7 923,49 | 10 643,53 | 30 | 10 258,35 | 7 082,74 |
4 | 10 643,53 | 13 363,57 | 20 | 11 905,85 | 8 120,23 |
5 | 13 363,57 | 16 083,61 | 7 | 15 062,87 | 9 808,41 |
6 | 16 083,61 | 18 803,66 | 4 | 16 534,10 | 10 370,30 |
7 | 18 803,66 | 21 523,70 | 2 | 20 990,90 | 13 007,25 |