Расчет средней ошибки аппроксимации для нелинейных уравнений регрессии

Прогноз по линейному уравнению регрессии. Средняя ошибка аппроксимации.

Проверить значимость уравнения регрессии
– значит установить, соответствует ли
математическая модель, выражающая
зависимость между переменными,
экспериментальным данным и достаточно
ли включенных в уравнение объясняющих
переменных (одной или нескольких) для
описания зависимой переменной.

Чтобы иметь общее суждение о качестве
модели из относительных отклонений по
каждому наблюдению, определяют среднюю
ошибку аппроксимации:

.
(1.8)

Средняя ошибка аппроксимации не должна
превышать 8–10%.

В прогнозных расчетах по уравнению
регрессии определяется предсказываемое
значение как точечный прогнозпри,
т.е. путем подстановки в уравнение
регрессиисоответствующего значения.
Однако точечный прогноз явно не реален.
Поэтому он дополняется расчетом
стандартной ошибки,
т.е.,
и соответственно интервальной оценкой
прогнозного значения:

,

где
,
а– средняя ошибка прогнозируемого
индивидуального значения:

.

Нелинейная регрессия. Классы нелинейных регрессий. Оценка нелинейной регрессии в целом

Если между экономическими явлениями
существуют нелинейные соотношения, то
они выражаются с помощью соответствующих
нелинейных функций.

Различают два класса нелинейных
регрессий:

  1. Регрессии, нелинейные относительно
    включенных в анализ объясняющих
    переменных, но линейные по оцениваемым
    параметрам, например

– полиномы различных степеней –
,;

– равносторонняя гипербола –
;

– полулогарифмическая функция –
.

  1. Регрессии, нелинейные по оцениваемым
    параметрам, например

– степенная –
;

– показательная –
;

– экспоненциальная –
.

Уравнение нелинейной регрессии, так
же, как и в случае линейной зависимости,
дополняется показателем тесноты связи.
В данном случае это индекс корреляции:

,
(1.21)

где
– общая дисперсия результативного
признака,– остаточная дисперсия.

Величина данного показателя находится
в пределах:
.
Чем ближе значение индекса корреляции
к единице, тем теснее связь рассматриваемых
признаков, тем более надежно уравнение
регрессии.

Квадрат индекса корреляции носит
название индекса детерминации и
характеризует долю дисперсии
результативного признака
,
объясняемую регрессией, в общей дисперсии
результативного признака:

,
(1.22)

т.е. имеет тот же смысл, что и в линейной
регрессии;
.

Индекс детерминации
можно сравнивать с коэффициентом
детерминациидля обоснования возможности применения
линейной функции. Чем больше кривизна
линии регрессии, тем величинаменьше.
А близость этих показателей указывает
на то, что нет необходимости усложнять
форму уравнения регрессии и можно
использовать линейную функцию.

Индекс детерминации используется для
проверки существенности в целом уравнения
регрессии по
-критерию
Фишера:

,
(1.23)

где
– индекс детерминации,– число наблюдений,– число параметров при переменной.
Фактическое значение-критерия
(1.23) сравнивается с табличным при уровне
значимостии числе степеней свободы(для остаточной суммы квадратов) и(для факторной суммы квадратов).

О качестве
нелинейного уравнения регрессии можно
также судить и по средней ошибке
аппроксимации

Регрессии нелинейные относительно включенных в анализ объясняющих переменных.

Регрессии нелинейные по включенным
переменным приводятся к линейному виду
простой заменой переменных, а дальнейшая
оценка параметров производится с помощью
метода наименьших квадратов. Рассмотрим
некоторые функции.

Парабола второй степени
приводится к линейному виду с помощью
замены:.
В результате приходим к двухфакторному
уравнению,
оценка параметров которого при помощи
МНК, как будет показано в параграфе 2.2
приводит к системе следующих нормальных
уравнений:

А после обратной замены переменных
получим

(1.17)

Парабола второй степени обычно применяется
в случаях, когда для определенного
интервала значений фактора меняется
характер связи рассматриваемых признаков:
прямая связь меняется на обратную или
обратная на прямую.

Равносторонняя гипербола может быть использована для характеристики
связи удельных расходов сырья, материалов,
топлива от объема выпускаемой продукции,
времени обращения товаров от величины
товарооборота, процента прироста
заработной платы от уровня безработицы
(например, кривая А.В. Филлипса), расходов
на непродовольственные товары от доходов
или общей суммы расходов (например,
кривые Э. Энгеля) и в других случаях.
Гипербола приводится к линейному
уравнению простой заменой:.
Система линейных уравнений при применении
МНК будет выглядеть следующим образом:

(1.18)

Аналогичным
образом приводятся к линейному виду
зависимости
,и другие

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Средняя ошибка аппроксимации

По семи территориям Уральского района за 199Х г. известны значения двух признаков.

Район Расходы на покупку продовольственных товаров в общих расходах, %, у Среднедневная заработная плата одного работающего, руб., х
Удмуртская респ. 68,8 45,1
Свердловская обл. 61,2 59,0
Башкортостан 59,9 57,2
Челябинская обл. 56,7 61,8
Пермская обл. 55,0 58,8
Курганская обл. 54,3 47,2
Оренбургская обл. 49,3 55,2

Требуется:
1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной;
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации Аср и F-критерий Фишера.

Решение проводим при помощь онлайн калькулятора Линейное уравнение регрессии.
а) линейное уравнение регрессии;
Использование графического метода.
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс — индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.

Для наших данных система уравнений имеет вид

Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = -0.35, a = 76.88
Уравнение регрессии: y = -0.35 x + 76.88

x y x 2 y 2 x • y y(x) (y i -y cp ) 2 (y-y(x)) 2 |y — y x |:y
45,1 68,8 2034,01 4733,44 3102,88 61,28 119,12 56,61 0,1094
59 61,2 3481 3745,44 3610,8 56,47 10,98 22,4 0,0773
57,2 59,9 3271,84 3588,01 3426,28 57,09 4,06 7,9 0,0469
61,8 56,7 3819,24 3214,89 3504,06 55,5 1,41 1,44 0,0212
58,8 55 3457,44 3025 3234 56,54 8,33 2,36 0,0279
47,2 54,3 2227,84 2948,49 2562,96 60,55 12,86 39,05 0,1151
55,2 49,3 3047,04 2430,49 2721,36 57,78 73,71 71,94 0,172
384,3 405,2 21338,41 23685,76 22162,34 405,2 230,47 201,71 0,5699

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(45.1) = -0.35*45.1 + 76.88 = 61.28
y(59) = -0.35*59 + 76.88 = 56.47
. . .

Ошибка аппроксимации
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации — среднее отклонение расчетных значений от фактических:

F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=5, Fkp = 6.61
Поскольку фактическое значение F b
в) показательная регрессия;
г) модель равносторонней гиперболы.
Система нормальных уравнений.

Для наших данных система уравнений имеет вид
7a + 0.1291b = 405.2
0.1291a + 0.0024b = 7.51
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 1054.67, a = 38.44
Уравнение регрессии:
y = 1054.67 / x + 38.44
Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Задача №1 Построение уравнения регрессии

Имеются следующие данные разных стран об индексе розничных цен на продукты питания (х) и об индексе промышленного производства (у).

Индекс розничных цен на продукты питания (х) Индекс промышленного производства (у)
1 100 70
2 105 79
3 108 85
4 113 84
5 118 85
6 118 85
7 110 96
8 115 99
9 119 100
10 118 98
11 120 99
12 124 102
13 129 105
14 132 112

Требуется:

1. Для характеристики зависимости у от х рассчитать параметры следующих функций:

В) равносторонней гиперболы.

2. Для каждой модели рассчитать показатели: тесноты связи и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии и корреляции.

4. Выполнить прогноз значения индекса промышленного производства у при прогнозном значении индекса розничных цен на продукты питания х=138.

Решение:

1. Для расчёта параметров линейной регрессии

Решаем систему нормальных уравнений относительно a и b:

Построим таблицу расчётных данных, как показано в таблице 1.

Таблица 1 Расчетные данные для оценки линейной регрессии

№ п/п х у ху x 2 y 2
1 100 70 7000 10000 4900 74,26340 0,060906
2 105 79 8295 11025 6241 79,92527 0,011712
3 108 85 9180 11664 7225 83,32238 0,019737
4 113 84 9492 12769 7056 88,98425 0,059336
5 118 85 10030 13924 7225 94,64611 0,113484
6 118 85 10030 13924 7225 94,64611 0,113484
7 110 96 10560 12100 9216 85,58713 0,108467
8 115 99 11385 13225 9801 91,24900 0,078293
9 119 100 11900 14161 10000 95,77849 0,042215
10 118 98 11564 13924 9604 94,64611 0,034223
11 120 99 11880 14400 9801 96,91086 0,021102
12 124 102 12648 15376 10404 101,4404 0,005487
13 129 105 13545 16641 11025 107,1022 0,020021
14 132 112 14784 17424 12544 110,4993 0,013399
Итого: 1629 1299 152293 190557 122267 1299,001 0,701866
Среднее значение: 116,3571 92,78571 10878,07 13611,21 8733,357 х х
8,4988 11,1431 х х х х х
72,23 124,17 х х х х х

Среднее значение определим по формуле:

Cреднее квадратическое отклонение рассчитаем по формуле:

и занесём полученный результат в таблицу 1.

Возведя в квадрат полученное значение получим дисперсию:

Параметры уравнения можно определить также и по формулам:

Таким образом, уравнение регрессии:

Следовательно, с увеличением индекса розничных цен на продукты питания на 1, индекс промышленного производства увеличивается в среднем на 1,13.

Рассчитаем линейный коэффициент парной корреляции:

Связь прямая, достаточно тесная.

Определим коэффициент детерминации:

Вариация результата на 74,59% объясняется вариацией фактора х.

Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчётные) значения .

,

следовательно, параметры уравнения определены правильно.

Рассчитаем среднюю ошибку аппроксимации – среднее отклонение расчётных значений от фактических:

В среднем расчётные значения отклоняются от фактических на 5,01%.

Оценку качества уравнения регрессии проведём с помощью F-теста.

F-тест состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.

Fфакт определяется по формуле:

где n – число единиц совокупности;

m – число параметров при переменных х.

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза.

Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

2. Степенная регрессия имеет вид:

Для определения параметров производят логарифмиро­вание степенной функции:

Для определения параметров логарифмической функции строят систему нормальных уравнений по способу наи­меньших квадратов:

Построим таблицу расчётных данных, как показано в таблице 2.

Таблица 2 Расчетные данные для оценки степенной регрессии

№п/п х у lg x lg y lg x*lg y (lg x) 2 (lg y) 2
1 100 70 2,000000 1,845098 3,690196 4,000000 3,404387
2 105 79 2,021189 1,897627 3,835464 4,085206 3,600989
3 108 85 2,033424 1,929419 3,923326 4,134812 3,722657
4 113 84 2,053078 1,924279 3,950696 4,215131 3,702851
5 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
6 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
7 110 96 2,041393 1,982271 4,046594 4,167284 3,929399
8 115 99 2,060698 1,995635 4,112401 4,246476 3,982560
9 119 100 2,075547 2,000000 4,151094 4,307895 4,000000
10 118 98 2,071882 1,991226 4,125585 4,292695 3,964981
11 120 99 2,079181 1,995635 4,149287 4,322995 3,982560
12 124 102 2,093422 2,008600 4,204847 4,382414 4,034475
13 129 105 2,110590 2,021189 4,265901 4,454589 4,085206
14 132 112 2,120574 2,049218 4,345518 4,496834 4,199295
Итого 1629 1299 28,90474 27,49904 56,79597 59,69172 54,05467
Среднее значение 116,3571 92,78571 2,064624 1,964217 4,056855 4,263694 3,861048
8,4988 11,1431 0,031945 0,053853 х х х
72,23 124,17 0,001021 0,0029 х х х

Продолжение таблицы 2 Расчетные данные для оценки степенной регрессии

№п/п х у
1 100 70 74,16448 17,34292 0,059493 519,1886
2 105 79 79,62057 0,385112 0,007855 190,0458
3 108 85 82,95180 4,195133 0,024096 60,61728
4 113 84 88,59768 21,13866 0,054734 77,1887
5 118 85 94,35840 87,57961 0,110099 60,61728
6 118 85 94,35840 87,57961 0,110099 60,61728
7 110 96 85,19619 116,7223 0,11254 10,33166
8 115 99 90,88834 65,79901 0,081936 38,6174
9 119 100 95,52408 20,03384 0,044759 52,04598
10 118 98 94,35840 13,26127 0,037159 27,18882
11 120 99 96,69423 5,316563 0,023291 38,6174
12 124 102 101,4191 0,337467 0,005695 84,90314
13 129 105 107,4232 5,872099 0,023078 149,1889
14 132 112 111,0772 0,85163 0,00824 369,1889
Итого 1629 1299 1296,632 446,4152 0,703074 1738,357
Среднее значение 116,3571 92,78571 х х х х
8,4988 11,1431 х х х х
72,23 124,17 х х х х

Решая систему нормальных уравнений, определяем параметры логарифмической функции.

Получим линейное уравнение:

Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата . По ним рассчитаем показатели: тесноты связи – индекс корреляции и среднюю ошибку аппроксимации.

Связь достаточно тесная.

В среднем расчётные значения отклоняются от фактических на 5,02%.

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

3. Уравнение равносторонней гиперболы

Для определения параметров этого уравнения используется система нормальных уравнений:

Произведем замену переменных

и получим следующую систему нормальных уравнений:

Решая систему нормальных уравнений, определяем параметры гиперболы.

Составим таблицу расчётных данных, как показано в таблице 3.

Таблица 3 Расчетные данные для оценки гиперболической зависимости

№п/п х у z yz
1 100 70 0,010000000 0,700000 0,0001000 4900
2 105 79 0,009523810 0,752381 0,0000907 6241
3 108 85 0,009259259 0,787037 0,0000857 7225
4 113 84 0,008849558 0,743363 0,0000783 7056
5 118 85 0,008474576 0,720339 0,0000718 7225
6 118 85 0,008474576 0,720339 0,0000718 7225
7 110 96 0,009090909 0,872727 0,0000826 9216
8 115 99 0,008695652 0,860870 0,0000756 9801
9 119 100 0,008403361 0,840336 0,0000706 10000
10 118 98 0,008474576 0,830508 0,0000718 9604
11 120 99 0,008333333 0,825000 0,0000694 9801
12 124 102 0,008064516 0,822581 0,0000650 10404
13 129 105 0,007751938 0,813953 0,0000601 11025
14 132 112 0,007575758 0,848485 0,0000574 12544
Итого: 1629 1299 0,120971823 11,13792 0,0010510 122267
Среднее значение: 116,3571 92,78571 0,008640844 0,795566 0,0000751 8733,357
8,4988 11,1431 0,000640820 х х х
72,23 124,17 0,000000411 х х х

Продолжение таблицы 3 Расчетные данные для оценки гиперболической зависимости

№п/п х у
1 100 70 72,3262 0,033231 5,411206 519,1886
2 105 79 79,49405 0,006254 0,244083 190,0458
3 108 85 83,47619 0,017927 2,322012 60,61728
4 113 84 89,64321 0,067181 31,84585 77,1887
5 118 85 95,28761 0,121031 105,8349 60,61728
6 118 85 95,28761 0,121031 105,8349 60,61728
7 110 96 86,01027 0,10406 99,79465 10,33166
8 115 99 91,95987 0,071112 49,56344 38,6174
9 119 100 96,35957 0,036404 13,25272 52,04598
10 118 98 95,28761 0,027677 7,357059 27,18882
11 120 99 97,41367 0,016024 2,516453 38,6174
12 124 102 101,46 0,005294 0,291565 84,90314
13 129 105 106,1651 0,011096 1,357478 149,1889
14 132 112 108,8171 0,028419 10,1311 369,1889
Итого: 1629 1299 1298,988 0,666742 435,7575 1738,357
Среднее значение: 116,3571 92,78571 х х х х
8,4988 11,1431 х х х х
72,23 124,17 х х х х

Значения параметров регрессии a и b составили:

Связь достаточно тесная.

В среднем расчётные значения отклоняются от фактических на 4,76%.

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

По уравнению равносторонней гиперболы получена наибольшая оценка тесноты связи по сравнению с линейной и степенной регрессиями. Средняя ошибка аппроксимации остаётся на допустимом уровне.

Оценка корреляции для нелинейной регрессии

Оценка тесноты корреляционной зависимости в случае нелинейной регрессии производится с помощью индекса корреляции (R):

, (39.1)

где , , (39.2)

x значения результативного признака, рассчитанные по уравнению регрессии.

Величина данного показателя находится в границах: 0≤ R ≤ 1 , чем она ближе к единице, тем теснее связь рассматриваемых признаков, тем надежнее найденное уравнение регрессии.

Следует помнить, что если для линейной зависимости имеет место равенство: ryx =rxy , то при криволинейной зависимости y=f(x) Ryx не равен Rxy.

Величина R 2 называется индексом детерминации.

Оценка существенности индекса корреляции проводится, так же как и оценка надежности коэффициента корреляции. Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:

, (39.3)

где R 2 — индекс детерминации;

n — число наблюдений;

m — число параметров при переменных х.

Индекс детерминации R 2 yx можно сравнивать с коэффициентом детерминации r 2 yx для обоснования возможности применения линейной функции.

Если величина (R 2 yx — r 2 yx) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различия между R 2 yx и r 2 yx , вычисленных по одним и тем же исходным данным, через t — критерий Стьюдента:

, (39.4)

где , (39.5)

Если t факт> t табл, то различия между Ryx и ryx существенны и замена нелинейной регрессии линейной — невозможна. Практически, если t ≤ 2, то различия между Ryx и ryx несущественны, и, следовательно, возможно применение линейной регрессии.

Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, т.е. y и yx. Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, лучше качество модели. Чтобы иметь общее представление о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации:

(39.6)

Существует и другая формула определения средней ошибки аппроксимации:

, (39.7)

где . (39.8)

Ошибка аппроксимации в пределах 5-7% свидетельствует о хорошем подборе модели к исходным данным.

Возможность построения нелинейных моделей, как с помощью их приведения к линейному виду, так и путем использования нелинейной регрессии, значительно повышает универсальность регрессионного анализа, но и усложняет задачу исследователя.

Возникает вопрос: с чего начать — с линейной зависимости или с нелинейной, и если с последней, то, какого типа.

Если ограничиться парной регрессией, то можно построить график наблюдений у и х и принять решение. Однако очень часто несколько разных нелинейных функцией приблизительно соответствуют наблюдениям, если они лежать на некоторой кривой. А в случае множествен6ной регрессии невозможно даже построить график.

37. Проверка гипотезы о значимости нелинейной модели регрессии. Проверка гипотезы о линейной зависимости между переменными модели регрессии

Хотя во многих практических случаях моделирование экономических зависимостей линейными уравнениями дает вполне удовлетворительный результат, однако ограничиться рассмотрением лишь линейных регрессионных моделей невозможно. Так близость линейного коэффициента корреляции к нулю еще не значит, что связь между соответствующими экономическими переменными отсутствует. При слабой линейной связи может быть очень тесной, например, не линейная связь. Поэтому необходимо рассмотреть и нелинейные регрессии, построение и анализ которых имеют свою специфику.

В случае, когда между экономическими явлениями существует нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных эконометрических моделей.

38. Двухфакторная производственная функция Кобба-Дугласа

Производственная функцию Кобба –Дугласа выглядит следующим образом:

(44.1)

где Р –объем продукции

L— затраты труда;

К — величина капитала;

Логарифмируя ее, получим линейное в логарифмах уравнение

(44.2)

Оценив параметры этого уравнения по МНК, можно найти теоретические значения объема продукции Р^ и соответственно остаточную сумму квадратов Σ (Р — Р^) 2 которая используется в расчете индекса детерминации:

(44.3)

Следует помнить, что МНК применяется не к исходным данным продукции, а к их логарифмам. Поэтому в индексе корреляции с общей суммой квадратов Σ (Р — Р¯) 2 сравнивается остаточная дисперсия, которая определена по теоретическим значениям логарифмов продукции:

Σ (Р — антилогарифм (ln Р)) 2 . Т.е. Р^ находится в следствии потенцированиия ln Р.

39. Отбор факторов для экономертических моделей

Хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качест­венного теоретико-экономического анализа, который обычно осуществляется в две стадии: на первой подби­раются факторы исходя из сущности проблемы; на второй – на основе показателей корреляции определяют t-статистики для параметров регрессии. Коэффициенты интеркорреляции (т. е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменных явно коллинеарны, т. е. находятся между собой в линейной зависимости, если . Ес­ли факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочте­ние при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множест­венной регрессии как метода исследования комплексного воз­действия факторов в условиях их независимости друг от друга. Наибольшие труд­ности в использовании аппарата множественной регрессии воз­никают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимос­тью. Наличие мультиколлинеарности факторов может озна­чать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полно­стью независимой, и нельзя оценить воздействие каждого факто­ра в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК). Включение в модель мультиколлинеарныхфакторов нежела­тельно в силу следующих последствий:

1. затрудняется интерпретация параметров множественной ре­грессии как характеристик действия факторов в «чистом» ви­де, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;

2. оценки параметров ненадежны, обнаруживают большие стан­дартные ошибки и меняются с изменением объема наблюде­ний. Для оценки мультиколлинеарности факторов может исполь­зоваться определитель матрицы парных коэффициентов корреля­ции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей. Для включающего три объ­ясняющих переменных уравнения: y=a+b1x1+b2+b3x3+e.Матрица коэф-в корреляции м/у факторами имела бы определитель равный

Det =1, т.к. rx1x1=rx2x2=1 и rx1x2=rx1x3=rx2x3=0.

Если м/у факторами сущ-ет полная линейная зависимость и все коэф-ты корреляции =1, то определитель такой матрицы =0. Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной кор­реляции, тем меньше мультиколлинеарность факторов.

40. Метод наименьших квадратов для двухфакторной производственной функции.

Метод наименьших квадратов.Некоторые более общие типы регрессионных моделей рассмотрены в разделе Основные типы нелинейных моделей. После выбора модели возникает вопрос: каким образом можно оценить эти модели? Если вы знакомы с методами линейной регрессии (описанными в разделе Множественная регрессия) или дисперсионного анализа (описанными в разделе Дисперсионный анализ), то вы знаете, что все эти методы используют оценивание по методу наименьших квадратов. Основной смысл этого метода заключается в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной от значений, предсказанных моделью. (Термин наименьшие квадраты впервые был использован в работе Лежандра — Legendre, 1805.)

Функция потерь.В стандартной множественной регрессии оценивание коэффициентов регрессии происходит “подбором” коэффициентов, минимизирующих дисперсию остатков (сумму квадратов остатков). Любые отклонения наблюдаемых величин от предсказанных означают некоторые потери в точности предсказаний, например, из-за случайного шума (ошибок). Поэтому можно сказать, что цель метода наименьших квадратов заключается в минимизации функции потерь. В этом случае, функция потерь определяется как сумма квадратов отклонений от предсказанных значений (термин функция потерь был впервые использован в работе Вальда — Wald, 1939). Когда эта функция достигает минимума, вы получаете те же оценки для параметров (свободного члена, коэффициентов регрессии), как, если бы мы использовали Множественную регрессию. Полученные оценки называются оценками по методу наименьших квадратов.

Продолжая в том же духе, можно рассмотреть другие функции потерь. Например, при минимизации функции потерь, почему бы вместо суммы квадратов отклонений не рассмотреть сумму модулей отклонений? В самом деле, иногда это бывает полезно для уменьшения влияния выбросов. Влияние, оказываемое крупными остатками на всю сумму, существенно увеличивается при их возведении в квадрат. Однако если вместо суммы квадратов взять сумму модулей выбросов, влияние остатков на результирующую регрессионную кривую существенно уменьшится.

Существуют несколько методов, которые могут быть использованы для минимизации различных видов функций пот

41. Двухфакторная производственная функция Солоу

Производственная функция – это зависимость между набором факторов производства и максимально возможным объемом продукта, производимым с помощью данного набора факторов.

Производственная функция всегда конкретна, т.е. предназначается для данной технологии. Новая технология – новая производительная функция.

С помощью производственной функции определяется минимальное количество затрат, необходимых для производства данного объема продукта.

Производственные функции, независимо от того, какой вид производства ими выражается, обладают следующими общими свойствами:

1) Увеличение объема производства за счет роста затрат только по одному ресурсу имеет предел (нельзя нанимать много рабочих в одно помещение – не у всех будут места).

2) Факторы производства могут быть взаимодополняемы (рабочие и инструменты) и взаимозаменяемы (автоматизация производства).

В наиболее общем виде производственная функция выглядит следующим образом:

,

где — объем выпуска;
K- капитал (оборудование);
М- сырье, материалы;
Т – технология;
N – предпринимательские способности.

Наиболее простой является двухфакторная модель производственной функции Кобба – Дугласа, с помощью которой раскрывается взаимосвязь труда (L) и капитала (К). Эти факторы взаимозаменяемы и взаимодополняемы

,

где А – производственный коэффициент, показывающий пропорциональность всех функций и изменяется при изменении базовой технологии (через 30-40 лет);

K, L- капитал и труд;

α, β -коэффициенты эластичности объема производства по затратам капитала и труда.

Если = 0,25, то рост затрат капитала на 1% увеличивает объем производства на 0,25%.

На основе анализа коэффициентов эластичности в производственной функции Кобба — Дугласа можно выделить:
1) пропорционально возрастающую производственную функцию, когда

α + β =1(Q=K 0,5 *L 0,2 ) .
2) непропорционально – возрастающую α + β > 1 (Q = K 0,9 *L 0,8 );
3) убывающую α + β 0,4 *L 0,2 ).

Рассмотрим короткий период деятельности фирмы, в котором из двух факторов переменным является труд. В такой ситуации фирма может увеличить производство за счет использования большего количества трудовых ресурсов. График производственной функции Кобба – Дугласа с одной переменной изображен на рис. 10.1 (кривая ТРн).

В краткосрочном периоде действует закон убывающей предельной производительности.

Закон убывающей предельной производительности действует в краткосрочном временном интервале, когда один производственный фактор остается неизменным. Действие закона предполагает неизменное состояние техники и технологии производства, если в производственном процессе будут применены новейшие изобретения и другие технические усовершенствования, то рост объема выпуска может быть достигнут при использовании тех же самых производственных факторов. То есть технический прогресс может изменить границы действия закона.

Если капитал является фиксированным фактором, а труд – переменным, то фирма может увеличить производство за счет использования большего количества трудовых ресурсов. Но по закону убывающей предельной производительности, последовательное увеличение переменного ресурса при неизменности других ведет к убывающей отдаче данного фактора, то есть к снижению предельного продукта или предельной производительности труда. Если же наем рабочих будет продолжаться, то в конечном итоге, они будут мешать друг другу (предельная производительность станет отрицательной) и объем выпуска сократится.

Предельная производительность труда (предельный продукт труда – MPL) – это прирост объема производства от каждой последующей единицы труда

,

т.е. прирост производительности к совокупному продукту (TPL)

.

Аналогично определяется предельный продукт капитала MPK.

Основываясь на законе убывающей производительности, проанализируем взаимосвязь общего (TPL), среднего (АPL) и предельного продуктов (MPL) (рис. 10.1).

В движении кривой общего продукта (ТР) можно выделить три этапа. На этапе 1 она поднимается вверх ускоряющимися темпами, так как предельность продукта (MP) возрастает (каждый новый рабочий приносит больше продукции, чем предыдущий) и достигает максимума в точке А, то есть скорость роста функции максимальна. После точки А (этап 2) в силу действия закона убывающей отдачи, кривая MP падает, то есть каждый нанятый рабочий дает меньшее приращение общего продукта по сравнению с предшествующим, поэтому темп роста ТР после ТС замедляется. Но пока МР будет положительным, ТР будет все равно увеличиваться и достигнет максимума при МР=0.

На 3 этапе, когда количество рабочих становится избыточным по отношению к фиксированному капиталу (станки), МР приобретает отрицательное значение, поэтому ТР начинает снижаться.

Конфигурация кривой среднего продукта АР также обусловлена динамикой кривой МР. На 1 этапе обе кривые растут, пока приращение объема выпуска от вновь нанятых рабочих будет большим, чем средняя производительность (АРL) ранее нанятых рабочих. Но после точки А (max MP), когда четвертый рабочий добавляет к совокупному продукту (ТР) меньше чем третий, МР уменьшается, поэтому средняя выработка четырех рабочих также сокращается.

Производственные функции Солоу, представляют собой одно из ближайших обобщений многофакторных функций с постоянной и одинаковой эластичностью замены факторов.

42. Гомоскедастичность и гетероскедастичность остатков модели регрессии. Последствия гетероскедастичности

С определения гомоскедастичности и гетероскедастичности остатков модели регрессии строиться график зависимости остатков ei от теоретических значений результативного признака:

Если на графике получена горизонтальная полоса, то остатки ei представляют собой случайные величины и МНК оправдан, те­оретические значения ух хорошо аппроксимируют фактические значения у.

Возможны варианты: если ei зависит от уx, то: 1.остатки ei не случайны.2. остатки ei, не имеют постоянной дисперсии. 3. Остатки ei носят систематический характер в дан­ном случае отрицательные значения ei, соответствуют низким значениям ух, а положительные — высоким значениям. В этих случаях необходимо либо применять дру­гую функцию, либо вводить дополнительную информацию.

Гомоскедастичность остатков означает, что дисперсия остатков ei одинакова для каждого значения х.Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. Наличие гетероскедастичности можно наглядно видеть из поля корреляции. а — дисперсия остатков растет по мере увеличения х; б — дисперсия остатков достигает максимальной величины при средних значениях переменной х и уменьшается при минимальных и максимальных значениях х; в — максимальная дисперсия остатков при малых значениях х и дисперсия остатков однородна по мере увеличения значений х. Графики гомо- и гетеро-ти.

Оценка отсутствия автокорреляции остатков(т.е. значения остатков ei распределены независимо друг от друга). Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Коэффициент корреляции между ei и ej , где ei — остатки текущих наблюдений, ej — остатки предыдущих наблю­дений, может быть определен по обычной формуле линейного коэффициента корреляции . (51.1)

Если этот коэффициент окажется существенно отличным от ну­ля, то остатки автокоррелированы и функция плотности вероят­ности F(e) зависит j-й точки наблюдения и от распределения значений остатков в других точках наблюдения. Для регрессионных моделей по статической информации ав­токорреляция остатков может быть подсчитана, если наблюдения упорядочены по фактору х. Отсутствие автокорреляции остаточных величин обеспечива­ет состоятельность и эффективность оценок коэффициентов ре­грессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динами­ки, где ввиду наличия тенденции последующие уровни динами­ческого ряда, как правило, зависят от своих предыдущих уров­ней.

При нарушении гомоскедастичности и наличии автокорреля­ции ошибок рекомендуется традиционный МНК заменять обобщенным методом. Обобщенный МНК применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. Обобщенный МНК для корректировки гетероскедастичности. В общем виде для уравнения yi=a+bxi+ei при где Ki – коэффициент пропорциональности. Модель примет вид: yi= + xi+ ei .

В ней остаточные величины гетероскедастичны. Предполагая в них отсутствие автокорреляции, можно перейти к уравнению с гомоскедастичными остатками, поделив все переменные, зафик­сированные в ходе i-го наблюдения на . Тогда дисперсия остатков будет величиной постоянной. От регрессии у по х перейдем к регрессии на новых переменных: y/ и х/ . Уравнение регрессии примет вид: . (51.2)

По отношению к обычной регрессии уравнение с новыми, преобразованными переменными представляет собой взвешен­ную регрессию, в которой переменные у и х взяты с весами . Коэф-т регрессии b можно определить как (51.3)

Как видим, при использовании обобщенного МНК с целью корректировки гетероскедастичности коэффициент регрессии b представляет собой взвешенную величину по отношению к обычному МНК с весами 1/К.Аналогичный подход возможен не только для уравнения парной, но и для множественной регрессии. Модель примет вид:

. (51.4)

Модель с преобразованными переменными составит

. (51.5)

Это уравнение не содержит свободного члена, применяя обычный МНК получим:

(51.5)

Применение в этом случае обобщенного МНК приводит к то­му, что наблюдения с меньшими значениями преобразованных переменных х/К имеют при определении параметров регрессии относительно больший вес, чем с первоначальными переменны­ми.

43. Тест Глейзера обнаружения гетероскедастичности остатков модели регрессии

Наличие гетероскедастичности в отдельных случаях может привести к смущенности оценок коэффициентов регрессии, хотя несмещенности оценок коэффициентов регрессии в основном зависит от соблюдения второй предпосылки МНК, т. е. независимости остатков и величин факторов. Гетероскедастичность будет сказываться на уменьшении эффективности оценок bi,. В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии mbi, предполагающую единую дисперсию остатков для любых значений фактора.

Тест Глейзера основывается на регрессии абсолютных значений остатков | ε | , т.е. рассматривается функция | εi| = a +bxi c + ui ,. Регрессия | εi| от xi cстроится при разных значениях параметра с, и далее отбирается та функция, для которой коэффициент регрессии b оказывается наиболее значимым, т.е. имеет место наибольшее значение (критерия Стьюдента или F-критерия Фишера и R 2 .

При обнаружении гетероскедастичности остатков регрессии ставится цель ее устранения, чему служит применение обобщенного метода наименьших квадратов

44. Тест Голдфелда-Квандта обнаружения гетероскедастичности остатков модели регрессии

При малом объеме выборки, для оценки гетероскедастичности используют метод Гольфреда — Квандта, разработанный в 1965 г. Гольдфельд и Квандт рассмотрели однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально Квадрату фактора. Для того чтобы оценить нарушение гомоскедастичности они предложили параметрический тест. Данный тест заключается в следующих стадиях:

1) Упорядочение n наблюдений по мере возрастания переменной х.

2) Исключение из рассмотрения С центральных наблюдений;

при этом (n — С)/ 2 > р, где р — число оцениваемых параметров.

3) Разделение совокупности из ( n — С) наблюдений на две группы (соответственно с малыми и большими значениями факторах) и определение по каждой из групп уравнений регрессии.

4) Определение остаточной суммы квадратов для первой (S1) и второй (S2) групп и нахождение их отношения R=S1/S2, где S1> S2.

При выполнении нулевой гипотезы о гомоскедастичности от ношение R будет удовлетворять F-критерию с (n — С- 2р) : 2 степенями свободы для каждой остаточной суммы квадратов. Чем сильнее R превышает табличное значение F -критерия тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

45. Устранение гетероскедастичности остатков модели регрессии

Автокорреляция остатков может быть вызвана следующими причинами:

1) Ошибками измерения при первоначальном сборе данных по результативному признаку;

2) Неправильно выбранная формулировка исходной модель.

При формировании модели мог быть упущен из виду фактор, оказывающий существенное влияние на результат. В итоге влияние этого фактора отражается в остатках в виде автокорреляции остатков. Часто этим фактором является показатель времени. Кроме того, в качестве таких существенных факторов могут выступать лаговые значения переменных включенных в модель. Либо модель не учитывает несколько равнозначных факторов, которые оказывают совместное влияние при совпадении тенденций и циклов колебаний. От истинной автокорреляции остатков следует отличать ситуации, когда причина автокорреляции заключается в неправильной спецификации функциональной формы модели. В этом случае следует изменить форму связи факторных и результативного признаков, а не использовать специальные методы расчета параметров уравнения регрессии при наличии автокорреляции остатков.

46. Автокорреляция остатков модели регрессии. Последствия автокорреляции. Автокорреляционная функция

В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора хj остатки i имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность.

Наличие гомоскедастичности или гетероскедастичности можно видеть и по рассмотренному выше графику зависимости остатков от теоретических значений результативного признака уx.

Для множественной регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомо- и гетероскедастичности.

При построении регрессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК – отсутствие автокорреляции остатков, т.е. значения i распределены независимо друг от друга.

Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений.

Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.

Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t и F. Вместе с тем оценки регрессии, найденные с применением МНК, обладает хорошими свойствами даже при отсутствии нормального распределения остатков.

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы и т.д.

При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется традиционный МНК заменять обобщенным МНК.

Обобщенный МНК применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии

47. Критерий Дарбина-Уотсона обнаружения автокорреляции остатков модели регрессии

Существуют два наиболее распространенных метода определения автокорреляции остатков:

1) путем построения графика зависимости остатков от времени и визуальное определение наличия или отсутствия автокорреляции; 2) использование критерия Дарбина-Уотсона и расчет величины

(56.1)

d – отношение суммы квадратов разностей последовательных занчений остатков к остаточной сумме квадратов по модели регрессии. Чащен всего критерий Дарбина –Уотсона указывается наряду с коэффициентом детерминации, значениями t- и F-критерия

Алгоритм выявления автокорреляции остатков на основе критерия Дарбина-Уотсона следующий. Выдвигается гипотеза Н0 об отсутствии автокорреляции остатков. Альтернативные гипотезы и состоят, соответственно, в наличии положительной или отрицательной автокорреляции в остатках. Далее по специальным таблицам определяются критические значения критерия Дарбина-Уотсона dL и dU для заданного числа наблюдений n, числа независимых переменных модели k и уровня значимости . По этим значениям числовой промежуток [0;4] разбивают на пять отрезков. Принятие или отклонение каждой из гипотез с вероятностью (1-) производится на основе данных, приведенных в таблице 5.1.

Таблица 47.1 Механизм проверки гипотезы о наличии автокорреляции остатков.

Есть положительная автокорреляция остатков. Н0 отклоняется. С вероятностью Р=(1-) принимается гипотеза Н1 Зона неопределенности Нет оснований отклонять Н0 (автокорреляция остатков отсутствует) Зона неопределенности Есть отрицательная автокорреляция остатков. Н0 отклоняется. С вероятностью Р=(1- ) принимается гипотеза
0 dL dU 2 4-dU 4-dL 4

Если фактическое значение критерия Дарбина-Уотсона попадает в зону неопределенности, то на практике предполагают существование автокорреляции остатков и отклоняют гипотезу Н0.

Есть несколько существенных ограничений на применение критерия Дарбина – Уотсона:

— он непременим к модели авторегрессии;

— данный критерий можно использовать только для выявления автокорреляции остатков 1-го порядка;

— критерий дает достоверные результаты только для больших выборок.

источники:

http://ecson.ru/economics/econometrics/zadacha-1.postroenie-regressii-raschyot-korrelyatsii-oshibki-approximatsii-otsenka-znachimosti-i-prognoz.html

http://helpiks.org/3-55677.html

Имеются следующие данные разных стран об индексе розничных цен на продукты питания (х) и об индексе промышленного производства (у).

  Индекс розничных цен на продукты питания (х) Индекс промышленного производства (у)
1 100 70
2 105 79
3 108 85
4 113 84
5 118 85
6 118 85
7 110 96
8 115 99
9 119 100
10 118 98
11 120 99
12 124 102
13 129 105
14 132 112

Требуется:

1. Для характеристики зависимости у от х рассчитать параметры следующих функций:

А) линейной;

Б) степенной;

В) равносторонней гиперболы.

2. Для каждой модели рассчитать показатели: тесноты связи и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии и корреляции.

4. Выполнить прогноз значения индекса промышленного производства у при прогнозном значении индекса розничных цен на продукты питания х=138.

Решение:

1. Для расчёта параметров линейной регрессии

 Линейное уравнение регрессии

Решаем систему нормальных уравнений относительно a и b:

Расчёт параметров линейной регрессии

Построим таблицу расчётных данных, как показано в таблице 1.

Таблица 1 Расчетные данные для оценки линейной регрессии

№ п/п х у ху x2 y2 Зависимая переменная относительная ошибка аппроксимации
1 100 70 7000 10000 4900 74,26340 0,060906
2 105 79 8295 11025 6241 79,92527 0,011712
3 108 85 9180 11664 7225 83,32238 0,019737
4 113 84 9492 12769 7056 88,98425 0,059336
5 118 85 10030 13924 7225 94,64611 0,113484
6 118 85 10030 13924 7225 94,64611 0,113484
7 110 96 10560 12100 9216 85,58713 0,108467
8 115 99 11385 13225 9801 91,24900 0,078293
9 119 100 11900 14161 10000 95,77849 0,042215
10 118 98 11564 13924 9604 94,64611 0,034223
11 120 99 11880 14400 9801 96,91086 0,021102
12 124 102 12648 15376 10404 101,4404 0,005487
13 129 105 13545 16641 11025 107,1022 0,020021
14 132 112 14784 17424 12544 110,4993 0,013399
Итого: 1629 1299 152293 190557 122267 1299,001 0,701866
Среднее значение: 116,3571 92,78571 10878,07 13611,21 8733,357 х  х
Среднее квадратическое отклонение 8,4988 11,1431 х х х х х
Дисперсия 72,23 124,17 х х х х х

Среднее значение определим по формуле:

Формула среднего значения х

Cреднее квадратическое отклонение рассчитаем по формуле:

Формула сренего квадратического отклонения

и занесём полученный результат в таблицу 1.

Возведя в квадрат полученное значение получим дисперсию:

Формула дисперсии

Параметры уравнения можно определить также и по формулам:

Формула и расчёт параметра регрессии b

Формула и расчёт параметра а

Таким образом, уравнение регрессии:

Линейное уравнение регрессии

Следовательно, с увеличением индекса розничных цен на продукты питания на 1, индекс промышленного производства увеличивается в среднем на 1,13.

Рассчитаем линейный коэффициент парной корреляции:

Формула и расчёт коэффициента корреляции

Связь прямая, достаточно тесная.

Определим коэффициент детерминации:

Расчёт коэффициента детерминации

Вариация результата на 74,59% объясняется вариацией фактора х.

Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчётные) значения Зависимая переменная.

Так как

Равенство фактических и расчтных значений,

следовательно, параметры уравнения определены правильно.

Рассчитаем среднюю ошибку аппроксимации – среднее отклонение расчётных значений от фактических:

Формула и расчёт средней ошибки аппроксимации

В среднем расчётные значения отклоняются от фактических на 5,01%.

Оценку качества уравнения регрессии проведём с помощью F-теста.

F-тест состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.

Fфакт определяется по формуле:

Формула F-критерия

где n – число единиц совокупности;

m – число параметров при переменных х.

Расчёт F-критерия

Сравнение табличного и фактического F-критерия

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза.

Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

Расчёт прогнозного значения

2. Степенная регрессия имеет вид:

Степенная модель

Для определения параметров производят логарифмиро­вание степенной функции:

Логарифмирование степенной модели

Для определения параметров логарифмической функции строят систему нормальных уравнений по способу наи­меньших квадратов:

Система уравнений для расчёта параметров степенной модели

Построим таблицу расчётных данных, как показано в таблице 2.

Таблица 2 Расчетные данные для оценки степенной регрессии

№п/п х у lg x lg y lg x*lg y (lg x)2 (lg y)2
1 100 70 2,000000 1,845098 3,690196 4,000000 3,404387
2 105 79 2,021189 1,897627 3,835464 4,085206 3,600989
3 108 85 2,033424 1,929419 3,923326 4,134812 3,722657
4 113 84 2,053078 1,924279 3,950696 4,215131 3,702851
5 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
6 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
7 110 96 2,041393 1,982271 4,046594 4,167284 3,929399
8 115 99 2,060698 1,995635 4,112401 4,246476 3,982560
9 119 100 2,075547 2,000000 4,151094 4,307895 4,000000
10 118 98 2,071882 1,991226 4,125585 4,292695 3,964981
11 120 99 2,079181 1,995635 4,149287 4,322995 3,982560
12 124 102 2,093422 2,008600 4,204847 4,382414 4,034475
13 129 105 2,110590 2,021189 4,265901 4,454589 4,085206
14 132 112 2,120574 2,049218 4,345518 4,496834 4,199295
Итого 1629 1299 28,90474 27,49904 56,79597 59,69172 54,05467
Среднее значение 116,3571 92,78571 2,064624 1,964217 4,056855 4,263694 3,861048
Среднее квадратическое отклонение 8,4988 11,1431 0,031945 0,053853 х х х
Дисперсия 72,23 124,17 0,001021 0,0029 х х х

Продолжение таблицы 2 Расчетные данные для оценки степенной регрессии

№п/п х у Зависимая переменная Квадрат разности у и теоретического значения относительная ошибка аппроксимации Квадрат разности у и среднего значения
1 100 70 74,16448 17,34292 0,059493 519,1886
2 105 79 79,62057 0,385112 0,007855 190,0458
3 108 85 82,95180 4,195133 0,024096 60,61728
4 113 84 88,59768 21,13866 0,054734 77,1887
5 118 85 94,35840 87,57961 0,110099 60,61728
6 118 85 94,35840 87,57961 0,110099 60,61728
7 110 96 85,19619 116,7223 0,11254 10,33166
8 115 99 90,88834 65,79901 0,081936 38,6174
9 119 100 95,52408 20,03384 0,044759 52,04598
10 118 98 94,35840 13,26127 0,037159 27,18882
11 120 99 96,69423 5,316563 0,023291 38,6174
12 124 102 101,4191 0,337467 0,005695 84,90314
13 129 105 107,4232 5,872099 0,023078 149,1889
14 132 112 111,0772 0,85163 0,00824 369,1889
Итого 1629 1299 1296,632 446,4152 0,703074 1738,357
Среднее значение 116,3571 92,78571 х х х х
Среднее квадратическое отклонение 8,4988 11,1431 х х х х
Дисперсия 72,23 124,17 х х х х

 Решая   систему   нормальных уравнений, определяем параметры логарифмической функции.

Формула и расчёт коэффициента регрессии

Формула и расчёт параметра lg а

Получим линейное уравнение:

Линейное уравнение

Выполнив его потенцирование, получим:

Потенцирование линейного уравнения

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата Теоретическое значение у. По ним рассчитаем показатели: тесноты связи – индекс корреляции и среднюю ошибку аппроксимации.

Формула и расчёт индекса корреляции

Связь достаточно тесная.

Формула и расчёт средней ошибки аппроксимации

В среднем расчётные значения отклоняются от фактических на 5,02%.

Формула и расчёт F-критерия

Сравнение табличного и фактического F-критерия

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

Прогнозное значение у

3. Уравнение равносторонней гиперболы

Уравнение равносторонней гиперболы

Для определения параметров этого уравнения используется система нормальных уравнений:

Система уравнений для нахождения параметров регрессии

Произведем замену переменных

Замена переменной

и получим следующую систему нормальных уравнений:

Система уравнений после замены

Решая систему нормальных уравнений, определяем параметры гиперболы.

Составим таблицу расчётных данных, как показано в таблице 3.

Таблица 3 Расчетные данные для оценки гиперболической зависимости

№п/п х у z yz Квадрат z Квадрат у
1 100 70 0,010000000 0,700000 0,0001000 4900
2 105 79 0,009523810 0,752381 0,0000907 6241
3 108 85 0,009259259 0,787037 0,0000857 7225
4 113 84 0,008849558 0,743363 0,0000783 7056
5 118 85 0,008474576 0,720339 0,0000718 7225
6 118 85 0,008474576 0,720339 0,0000718 7225
7 110 96 0,009090909 0,872727 0,0000826 9216
8 115 99 0,008695652 0,860870 0,0000756 9801
9 119 100 0,008403361 0,840336 0,0000706 10000
10 118 98 0,008474576 0,830508 0,0000718 9604
11 120 99 0,008333333 0,825000 0,0000694 9801
12 124 102 0,008064516 0,822581 0,0000650 10404
13 129 105 0,007751938 0,813953 0,0000601 11025
14 132 112 0,007575758 0,848485 0,0000574 12544
Итого: 1629 1299 0,120971823 11,13792 0,0010510 122267
Среднее значение: 116,3571 92,78571 0,008640844 0,795566 0,0000751 8733,357
Среднее квадратическое отклонение 8,4988 11,1431 0,000640820 х х х
Дисперсия 72,23 124,17 0,000000411 х х х

Продолжение таблицы 3 Расчетные данные для оценки гиперболической зависимости

№п/п х у Зависимая переменная относительная ошибка аппроксимации Квадрат разности у и теоретического значения Квадрат разности у и среднего значения
1 100 70 72,3262 0,033231 5,411206 519,1886
2 105 79 79,49405 0,006254 0,244083 190,0458
3 108 85 83,47619 0,017927 2,322012 60,61728
4 113 84 89,64321 0,067181 31,84585 77,1887
5 118 85 95,28761 0,121031 105,8349 60,61728
6 118 85 95,28761 0,121031 105,8349 60,61728
7 110 96 86,01027 0,10406 99,79465 10,33166
8 115 99 91,95987 0,071112 49,56344 38,6174
9 119 100 96,35957 0,036404 13,25272 52,04598
10 118 98 95,28761 0,027677 7,357059 27,18882
11 120 99 97,41367 0,016024 2,516453 38,6174
12 124 102 101,46 0,005294 0,291565 84,90314
13 129 105 106,1651 0,011096 1,357478 149,1889
14 132 112 108,8171 0,028419 10,1311 369,1889
Итого: 1629 1299 1298,988 0,666742 435,7575 1738,357
Среднее значение: 116,3571 92,78571 х х х х
Среднее квадратическое отклонение 8,4988 11,1431 х х х х
Дисперсия 72,23 124,17 х х х х

Значения параметров регрессии a и b составили:

Формула и расчёт коэффициента регрессии

Формула и расчёт параметра а

Получено уравнение:

Уравнение регрессии

Индекс корреляции:

Формула и расчёт индекса корреляции

Связь достаточно тесная.

Формула и расчёт средней ошибки аппроксимации 

В среднем расчётные значения отклоняются от фактических на 4,76%.

Формула и расчёт F-критерия

Сравнение табличного и фактического F-критерия

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

Прогнозное значение

По уравнению равносторонней гиперболы получена наибольшая оценка тесноты связи по сравнению с линейной и степенной регрессиями. Средняя ошибка аппроксимации остаётся на допустимом уровне.

Метод наименьших квадратов (МНК) заключается в том, что сумма квадратов отклонений значений y от полученного уравнения регрессии — минимальное.  Уравнение линейной регрессии имеет вид

y=ax+b

a, b – коэффициенты линейного уравнения регрессии;

x – независимая переменная;

y – зависимая переменная.

Нахождения коэффициентов уравнения линейной регрессии через метод наименьших квадратов:

Метод наименьших квадратов функция

частные производные функции приравниваем к нулю

Метод наименьших квадратов уравнение

отсюда получаем систему линейных уравнений

уравнение линейной регрессии

Формулы определения коэффициентов уравнения линейной регрессии:

формулы коэффициентов линейной регрессии

Также запишем уравнение регрессии для квадратной нелинейной функции:

Уравнение регрессии полинома формула

Система линейных уравнений регрессии полинома n-ого порядка:

уравнение регрессии полинома n-ого порядка формула

Формула коэффициента детерминации R2:

коэффициент детерминации формула

Формула средней ошибки аппроксимации для уравнения линейной регрессии (оценка качества модели):

средняя ошибка аппроксимации уравнения линейной регрессии

Чем меньше ε, тем лучше. Рекомендованный показатель ε<10%
Формула среднеквадратической погрешности:
Формула среднеквадратической погрешности


Для примера, проведём расчет для получения линейного уравнения регрессии аппроксимации функции, заданной в табличном виде:

x y
3 4
4 7
6 11
7 16
9 18
11 22
13 24
15 27
16 30
19 33

Решение

Расчеты значений суммы, произведения x и у приведены в таблицы.

таблица расчет линейной регрессии

Расчет коэффициентов линейной регрессии:

расчет коэффициентов линейной регрессии

при этом средняя ошибка аппроксимации равна:

ε=11,168%

Получаем уравнение линейной регрессии с помощью метода наименьших квадратов:

y=1,7871x+0,79

График функции линейной зависимости y=1,7871x+0,79 и табличные значения, в виде точек

график линейной регрессии метод наименьших квадратов

Коэффициент корреляции равен 0,988
Коэффициента детерминации равен  0,976

17629


Понравилась статья? Поделить с друзьями:
  • Расчет средней относительной ошибки аппроксимации
  • Расчет сигмы и ошибки репрезентативности
  • Расчет вероятности ошибки на бит
  • Расчет себестоимости при закрытии месяца ошибка
  • Расчет вероятностей ошибок и оптимального порога