Найти среднюю ошибку аппроксимации пример - TopOshibok.ru - решение и исправление самых разных ошибок

Средняя ошибка аппроксимации

Фактические
значения результативного признака
отличаются от теоретических, рассчитанных
по уравнению регрессии. Чем меньше эти
отличия, тем ближе теоретические значения
к эмпирическим данным, тем лучше качество
модели. Величина отклонений фактических
и расчетных значений результативного
признака каждому наблюдению представляет
собой ошибку аппроксимации. В отдельных
случаях ошибка аппроксимации может
оказаться равной нулю. Отклонения (y
–

)
несравнимы между собой, исключая
величину, равную нулю. Так, если для
одного наблюдения y
–

= 5, а для другого – 10, то это не означает,
что во втором случае модель дает вдвое
худший результат. Для сравнения
используются величины отклонений,
выраженные в процентах к фактическим
значениям. Например, если для первого
наблюдения y
= 20, а для второго y
= 50, ошибка аппроксимации составит 25 %
для первого наблюдения и 20 % – для
второго.

Поскольку
(y
–

)
может быть величиной как положительной,
так и отрицательной, ошибки аппроксимации
для каждого наблюдения принято определять
в процентах по модулю.

Отклонения
(y
–

)
можно рассматривать как абсолютную
ошибку аппроксимации, а

– как
относительную ошибку аппроксимации.
Для того, чтобы иметь общее суждение о
качестве модели из относительных
отклонений по каждому наблюдению,
находят среднюю ошибку аппроксимации
как среднюю арифметическую простую

. (2.38)

По
нашим данным представим расчет средней
ошибки аппроксимации для уравнения Y
= 6,136 
Х^0,474
в следующей таблице.

Таблица.
Расчет средней ошибки аппроксимации

y	y_x	y –
6	6,135947	-0,135946847	0,022658
9	8,524199	0,475801308	0,052867
10	10,33165	-0,331653106	0,033165
12	11,84201	0,157986835	0,013166
13	13,164	-0,163999272	0,012615
Итого			0,134471

A
= (0,1345 / 5) 
100 = 2,69 %, что говорит о хорошем качестве
уравнения регрессии, ибо ошибка
аппроксимации в пределах 5-7 % свидетельствует
о хорошем подборе модели к исходным
данным.

Возможно
и другое определение средней ошибки
аппроксимации:

(2.39)

Для
нашего примера эта величина составит:

Для
расчета средней ошибки аппроксимации
в стандартных программах чаще используется
формула (2.39).

Аналогично
определяется средняя ошибка аппроксимации
и для уравнения параболы.

№11

Факторы,
включаемые во множественную регрессию,
должны отвечать следующим требованиям:

1)
быть количественно измеримы. Если
необходимо включить в модель качественный
фактор, не имеющий количественного
измерения, то нужно придать ему
количественную определенность (например,
в модели урожайности качество почвы
задается в виде баллов; в модели стоимости
объектов недвижимости учитывается
место нахождения недвижимости: районы
могут быть проранжированы);

2)
не должны быть коррелированны между
собой и тем более находиться в точной
функциональной связи.

Включение
в модель факторов с высокой интеркорреляцией,
когда r_yx₁
< r_x₁_x₂,
для зависимости y
= a
+ b₁

x₁
+ b₂

x₂
+ ,
может привести к нежелательным
последствиям – система нормальных
уравнений может оказаться плохо
обусловленной и повлечь за собой
неустойчивость и ненадежность оценок
коэффициентов регрессии.

Если
между факторами существует высокая
корреляция, то нельзя определить их
изолированное влияние на результативный
показатель, и параметры уравнения
регрессии оказываются неинтерпретируемыми.
Так, в уравнении y
= a
+ b₁

x₁
+ b₂

x₂
+ ,
предполагается, что факторы x₁
и x₂
независимы друг от друга, т.е. r_x₁_x₂
= 0. Тогда можно говорить, что параметр
b₁
измеряет силу влияния фактора x₁
на результат y
при неизменном значении фактора x₂.
Если же r_x₁_x₂
= 1, то с изменением фактора x₁
фактор x₂
не может оставаться неизменным. Отсюда
b₁
и b₂
нельзя интерпретировать как показатели
раздельного влияния x₁
и x₂
на y.

Пример
3.2. При
изучении зависимости y
= f(x,
z,
v)
матрица парных коэффициентов корреляции
оказалась следующей:

	y	x	z	v
y	1
x	0,8	1
z	0,7	0,8	1
v	0,6	0,5	0,2	1

Очевидно,
что факторы x
и z
дублируют друг друга. В анализ целесообразно
включить фактор z,
а не x,
так как корреляция z,
с результатом y
слабее, чем корреляция фактора x
с y
(r_yz
< r_yx),
но зато слабее межфакторная корреляция
r_zv
< r_xv_.
Поэтому в данном случае в уравнение
множественной регрессии включаются
факторы z,
и v.

По
величине парных коэффициентов корреляции
обнаруживается лишь явная коллинеарность
факторов. Наибольшие трудности в
использовании аппарата множественной
регрессии возникают при наличии
мультиколлинеарности
факторов, когда более чем два фактора
связаны между собой линейной зависимостью,
т.е. имеет место совокупное воздействие
факторов друг на друга. Наличие
мультиколлинеарности факторов может
означать, что некоторые факторы всегда
будут действовать в унисон. В результате
вариация в исходных данных перестает
быть полностью независимой и нельзя
оценить воздействие каждого фактора в
отдельности. Чем сильнее мультиколлинеарность
факторов, тем менее надежна оценка
распределения суммы объясненной вариации
по отдельным факторам с помощью метода
наименьших квадратов.

Если
рассматривается регрессия y
= a
+ b

x
+ c

z
+ d

v
+ ,
то для расчета параметров с применением
МНК предполагается равенство

S²_y
= S²_факт
+ S²_,

где
S²_y
– общая сумма квадратов отклонений

;
S²_факт
– факторная (объясненная) сумма квадратов
отклонений

;
S²_
– остаточная сумма квадратов отклонений

.

В
свою очередь, при независимости факторов
друг от друга выполнимо равенство

S²_факт
= S²_x
+ S²_z
+ S²_v,

где
S²_x,
S²_z,
S²_v
– суммы квадратов отклонений, обусловленные
влиянием соответствующих факторов.

Если
же факторы интеркоррелированы, то данное
равенство нарушается.

Включение
в модель мультиколлинеарных факторов
нежелательно по следующим причинам:

– затрудняется
интерпретация параметров множественной
регрессии как характеристик действия
факторов в «чистом» виде, ибо факторы
коррелированны; параметры линейной
регрессии теряют экономический смысл;

– оценки
параметров ненадежны, обнаруживают
большие стандартные ошибки и меняются
с изменением объема наблюдений (не
только по величина, но и по знаку), что
делает модель непригодной для анализа
и прогнозирования.

Для
оценки факторов может использоваться
определитель матрицы
парных коэффициентов корреляции между
факторами.

Если
бы факторы не коррелировали между собой,
то матрицы парных коэффициентов
корреляции между ними была бы единичной,
поскольку все недиагональные элементы
r_xixj
(x_i

x_j)
были бы равны нулю. Так, для уравнения,
включающего три объясняющих переменных,

y
= a
+ b₁

x₁
+ b₂

x₂
+ b₃

x₃
+ ,

матрица
коэффициентов корреляции между факторами
имела бы определитель, равный единице

поскольку
r_x₁_x₁
= r_x₂_x₂
= r_x₃_x₃
= 1 и r_x₁_x₂
= r_x₁_x₃
= r_x₂_x₃
= 0.

Если
же между факторами существует полная
линейная зависимость и все коэффициенты
корреляции равны единице, то определитель
такой матрицы равен нулю

Чем
ближе к нулю определитель матрицы
межфакторной корреляции, тем сильнее
мультиколлинеарность факторов и
ненадежнее результаты множественной
регрессии. И, наоборот, чем ближе к
единице определитель матрицы межфакторной
корреляции, тем меньше мультиколлинеарность
факторов.

Оценка
значимости мультиколлинеарности
факторов может быть проведена методом
испытания гипотезы о независимости
переменных H₀:
DetR
= 1. Доказано, что величина

имеет приближенное распределение ²
с df
= m

(m
– 1)/2 степенями
свободы. Если фактическое значение ²
превосходит табличное (критическое):
²_факт
> ²_табл(_df_,_₎
то гипотеза H₀
отклоняется. Это означает, что DetR

1, недиагональные ненулевые коэффициенты
корреляции указывают на коллинеарность
факторов. Мультиколлинеарность считается
доказанной.

Через
коэффициенты множественной детерминации
можно найти переменные, ответственные
за мультиколлинеарность факторов. Для
этого в качестве зависимой переменной
рассматривается каждый из факторов.
Чем ближе значение коэффициента
множественной детерминации к единице,
тем сильна проявляется мультиколлинеарность
факторов. Сравнивая между собой
коэффициенты множественной детерминации
факторов
R²_x₁__x₂_x_3…_xp;
R²_x₂__x₁_x_3…_xp
и т.п., можно выделить переменные,
ответственные за мультиколлинеарность,
следовательно, можно решать проблему
отбора факторов, оставляя в уравнении
факторы с минимальной величиной
коэффициента множественной детерминации.

Имеется
ряд подходов преодоления сильной
межфакторной корреляции. Самый простой
из них состоит в исключении из модели
одного или нескольких факторов. Другой
путь связан с преобразованием факторов,
при котором уменьшается корреляция
между ними. Например, при построении
модели на основе рядов динамики переходят
от первоначальных данных к первым
разностям уровней y
= y_t
– y_t_–1,
чтобы исключить влияние тенденции, или
используются такие методы, которые
сводят к нулю межфакторную корреляцию,
т.е. переходят от исходных переменных
к их линейным комбинациям, не коррелированным
друг с другом (метод главных компонент).

Одним
из путей учета внутренней корреляции
факторов является переход к совмещенным
уравнениям регрессии, т.е. к уравнениям,
которые отражают не только влияние
факторов, но и их взаимодействие. Так,
если y
= f(x₁,
x₂,
x₃).
то можно построить следующее совмещенное
уравнение:

y
= a
+ b₁

x₁
+ b₂

x₂
+ b₃

x₃
+ b₁₂

x₁

x₂
+ b₁₃

x₁

x₃
+ b₂₃

x₂

x₃
+ .

Рассматриваемое
уравнение включает эффект взаимодействия
первого порядка. Можно включать в модель
и взаимодействие более высоких порядков,
если будет доказана его статистическая
значимость, например включение
взаимодействия второго порядка b₁₂₃

x₁
x₂

x₃
и т.д. Как правила, взаимодействие
третьего и более высоких порядков
оказывается статистически незначимым;
совмещенные уравнения регрессии
ограничиваются взаимодействием первого
и второго порядков. Но и оно может
оказаться несущественным. Тогда
нецелесообразно включать в модель
взаимодействие всех факторов и всех
порядков. Так, если анализ совмещенного
уравнения показал значимость только
взаимодействия факторов x₁и
x₃,
то уравнение будет иметь вид:

y
= a
+ b₁

x₁
+ b₂

x₂
+ b₃

x₃
+ b₁₃

x₁

x₃
+ .

Взаимодействие
факторов x₁и
x₃
означает, что на разных уровнях фактора
x₃
влияние фактора x₁на
y
будет неодинаково, т.е. оно зависит от
значений фактора x₃.
На рис. 3.1 взаимодействие факторов
представляется непараллельными линиями
связи x₁с
результатом y.
И, наоборот, параллельные линии влияния
фактора x₁на
y
при разных уровнях фактора x₃
означают отсутствие взаимодействия
факторов x₁и
x₃.

Рис.
3.1. Графическая иллюстрация взаимодействия
факторов

Совмещенные
уравнения регрессии строятся, например,
при исследовании эффекта влияния на
урожайность разных видов удобрений
(комбинаций азота и фосфора).

Решению
проблемы устранения мультиколлинеарности
факторов может помочь и переход к
уравнениям приведенной формы. С этой
целью в уравнение регрессии подставляют
рассматриваемый фактор, выраженный из
другого уравнения.

Пусть,
например, рассматривается двухфакторная
регрессия вида y_x
= a
+ b₁

x₁
+ b₂

x₂,
для которой факторы x₁и
x₂
обнаруживают высокую корреляцию. Если
исключить один из факторов, то мы придем
к уравнению парной регрессии. Вместе с
тем можно оставить факторы в модели, но
исследовать данное двухфакторное
уравнение регрессии совместно с другим
уравнением, в котором фактор (например,
x₂)
рассматривается как зависимая переменная.
Предположим, что x₂
= A
+ B
y
+ C

x₃.
Подставив это уравнение в искомое вместо
x₂,
получим:

y_x
= a
+ b₁

x₁
+ b₂

(A
+ B

y
+ C

x₃)

или

y_x

(1 – b₂

B)
= (a
+ b₂

A)
+ b₁

x₁
+ C

b₂

x₃.

Если
(1 – b₂

B)

0, то, разделив обе части равенства на
(1 – b₂

B),
получим уравнение вида

которое
принято называть приведенной формой
уравнения для определения результативного
признака y.
Это уравнение может быть представлено
в виде

y_x
= a’
+ b’₁

x₁
+ b’₃

x₃.

К
нему для оценки параметров может быть
применен метод наименьших квадратов.

Отбор
факторов, включаемых в регрессию,
является одним из важнейших этапов
практического использования методов
регрессии. Подходы к отбору факторов
на основе показателей корреляции могут
быть разные. Они приводят построение
уравнения множественной регрессии
соответственно к разным методикам. В
зависимости от того, какая методика
построения уравнения регрессии принята,
меняется алгоритм её решения на
компьютере.

Наиболее
широкое применение получили следующие
методы построения уравнения множественной
регрессии:

– метод
исключения;

– метод
включения;

– шаговый
регрессионный анализ.

Каждый
из этих методов по-своему решает проблему
отбора факторов, давая в целом близкие
результаты – отсев факторов из полного
его набора (метод исключения), дополнительное
введение фактора (метод включения),
исключение ранее введенного фактора
(шаговый регрессионный анализ).

На
первый взгляд может показаться, что
матрица парных коэффициентов корреляции
играет главную роль в отборе факторов.
Вместе с тем вследствие взаимодействия
факторов парные коэффициенты корреляции
не могут в полной мере решать вопрос о
целесообразности включения в модель
того или иного фактора. Эту роль выполняют
показатели частной корреляции, оценивающие
в чистом виде тесноту связи фактора с
результатом. Матрица частных коэффициентов
корреляции наиболее широко используется
в процедуре отсева факторов. Отсев
факторов можно проводить и по t-критерию
Стьюдента для коэффициентов регрессии:
из уравнения исключаются факторы с
величиной t-критерия
меньше табличного. Так, например,
уравнение регрессии составило:

y
= 25 + 5x₁
+ 3x₂
+ 4x₃
+ .

(4,0) (1,3) (6,0)

В
скобках приведены фактические значения
t-критерия
для соответствующих коэффициентов
регрессии, как правило, при t
< 2 коэффициент регрессии незначим и,
следовательно, рассматриваемый фактор
не должен присутствовать в регрессионной
модели. В данном случае – это фактор
x₂.

При
отборе факторов рекомендуется пользоваться
следующим правилом: число включаемых
факторов обычно в 6-7 раз меньше объема
совокупности, по которой строится
регрессия. Если это соотношение нарушено,
то число степеней свободы остаточной
вариации очень мало. Это приводит к
тому, что параметры уравнения регрессии
оказываются статистически незначимыми,
а F-критерий
меньше табличного значения.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

Источник

По территориям региона приводятся данные за 200Х г.

Номер региона	Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х	Среднедневная заработная плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

3. Оцените тесноту связи с помощью показателей корреляции и детерминации.

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

5. Оцените с помощью средней ошибки аппроксимации качество уравнений.

6. Оцените с помощью F-критерия Фишера статистическую надёжность результатов регрессионного моделирования.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

8. Оцените полученные результаты, выводы оформите в аналитической записке.

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН.

Для этого:

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций: в главном меню выберете Формулы / Вставить функцию.
4) В окне Категория выберете Статистические, в окне функция – ЛИНЕЙН. Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у – диапазон, содержащий данные результативного признака;

Известные значения х – диапазон, содержащий данные факторного признака;

Константа – логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу <F2>, а затем на комбинацию клавиш <Ctrl>+<Shift>+<Enter>.

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b	Значение коэффициента a
Стандартная ошибка b	Стандартная ошибка a
Коэффициент детерминации R²	Стандартная ошибка y
F-статистика	Число степеней свободы df
Регрессионная сумма квадратов	Остаточная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

3. Коэффициент детерминации означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х – среднедушевого прожиточного минимума, а 48% — действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее, и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
— результаты регрессионной статистики,
— результаты дисперсионного анализа,
— результаты доверительных интервалов,
— остатки и графики подбора линии регрессии,
— остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа. В главном меню последовательно выберите: Файл/Параметры/Надстройки.

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа, а затем нажмите кнопку ОК.

• Если Пакет анализа отсутствует в списке поля Доступные надстройки, нажмите кнопку Обзор, чтобы выполнить поиск.

• Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да, чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия, а затем нажмите кнопку ОК.

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y – диапазон, содержащий данные результативного признака;

Входной интервал X – диапазон, содержащий данные факторного признака;

Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа – ноль – флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист – можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК.

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 – 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н₀ о статистически незначимом отличии показателей от нуля:

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где – случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н₀ отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций: в главном меню выберете Формулы / Вставить функцию.

2) В окне Категория выберете Статистические, в окне функция – ДИСП.Г. Щёлкните по кнопке ОК.

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК.

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2003. – 192 с.: ил.

Источник

Коэффициент корреляции

Тесноту (силу) связи изучаемых показателей в предмете эконометрика оценивают с помощью коэффициента корреляции Rxy, который может принимать значения от -1 до +1.

Если Rxy > 0,7 — связь между изучаемыми показателями сильная, можно проводить анализ линейной модели

Если 0,3 < Rxy < 0,7 — связь между показателями умеренная, можно использовать нелинейную модель при отсутствии Rxy > 0,7

Если Rxy < 0,3 — связь слабая, модель строить нельзя

Для нелинейной регрессии используют индекс корреляции (0 < Рху < 1):

Средняя ошибка аппроксимации

Для оценки качества однофакторной модели в эконометрике используют коэффициент детерминации и среднюю ошибку аппроксимации.

Средняя ошибка аппроксимации определяется как среднее отклонение полученных значений от фактических

Допустимая ошибка аппроксимации не должна превышать 10%.

В эконометрике существует понятие среднего коэффициента эластичности Э – который говорит о том, на сколько процентов в среднем изменится показатель у от своего среднего значения при изменении фактора х на 1% от своей средней величины.

Пример нахождения коэффициента корреляции

Исходные данные:

Номер региона	Среднедушевой прожиточный минимум в день одного трудоспособного, руб.,	Среднедневная заработная плата, руб.,
1	81	124
2	77	131
3	85	146
4	79	139
5	93	143
6	100	159
7	72	135
8	90	152
9	71	127
10	89	154
11	82	127
12	111	162

Рассчитаем параметры парной линейной регрессии, составив таблицу

	x	x²	y	xy	y²
1	81	6561	124	10044	15376
2	77	5929	131	10087	17161
3	85	7225	146	12410	21316
4	79	6241	139	10981	19321
5	93	8649	143	13299	20449
6	100	10000	159	15900	25281
7	72	5184	135	9720	18225
8	90	8100	152	13680	23104
9	71	5041	127	9017	16129
10	89	7921	154	13706	23716
11	82	6724	127	10414	16129
12	111	12321	162	17982	26244
Среднее	85,8	7491	141,6	12270,0	20204,3
Сумма	1030,0	89896	1699	147240	242451
σ	11,13		12,59
σ2	123,97		158,41

формула расчета дисперсии σ2 приведена здесь.

Коэффициенты уравнения y = a + bx определяются по формуле

Получаем уравнение регрессии: y = 0,947x + 60,279.

Коэффициент уравнения b = 0,947 показывает, что при увеличении среднедушевого прожиточного минимума в день одного трудоспособного на 1 руб. среднедневная заработная плата увеличивается на 0,947 руб.
Коэффициент корреляции рассчитывается по формуле:

Значение коэффициента корреляции более — 0,7, это означает, что связь между среднедушевым прожиточным минимумом в день одного трудоспособного и среднедневной заработной платой сильная.

Коэффициент детерминации равен R2 = 0.838^2 = 0.702
т.е. 70,2% результата объясняется вариацией объясняющей переменной x.

Источник

Решения задач – Множественная регрессия

Задача по статистике с решением – Множественная регрессия. Корреляционный анализ.

Имеются следующие показатели по десяти предприятиям некоторой отрасли (на 31.12.2013):

Номер предпри- ятия	Стоимость промышленно- производственных основных фондов, тыс. руб.	Валовая продукция в оптовых ценах предприятия, тыс. руб.	Среднесписочная численность промышленно– производственного персонала, чел.	Среднесписочная численность рабочих, чел.
1	4999	5349	420	331
2	6929	6882	553	486
3	6902	7046	570	498
4	10097	7248	883	789
5	8097	5256	433	359
6	11116	14090	839	724
7	4880	3525	933	821
8	7355	5431	526	428
9	10066	7680	676	607
10	7884	8226	684	619

Приняв стоимость основных промышленно – производственных основных фондов за результативный признак, а остальные показатели – за факторные признаки, необходимо:

а) исключив один из факторных признаков, перейти к двухфакторной регрессии;

б) вычислить множественный коэффициент корреляции и сделать выводы о форме и силе корреляционной зависимости;

в) с помощью F – критерия Фишера с вероятностью 0,95 оценить статистическую значимость эмпирических данных;

г) вычислить значение общего индекса детерминации;

д) двумя способами получить уравнение линейной модели множественной регрессии;

е) по величине средней ошибки аппроксимации оценить точность линейной модели;

ж) подсчитать дельта – коэффициенты;

з) найти значения коэффициентов эластичности;

и) исключить из модели один из факторных признаков и перейти к модели с парной регрессией.

Решение задачи на множественную регрессию и корреляционный анализ. Вначале, запишем эмпирические данные (объем выборки n=10) в виде таблицы:

	Y
1	4999	5349	420	331
2	6929	6882	553	486
3	6902	7046	570	498
4	10097	7248	883	789
5	8097	5256	433	359
6	11116	14090	839	724
7	4880	3525	933	821
8	7355	5431	526	428
9	10066	7680	676	607
10	7884	8226	684	619

Все необходимые расчеты осуществлены в таблицах 2-3.

Таблица 2

	у
1	4999	24990001	5349	28611801	26739651	420	176400	2099580
2	6929	48011041	6882	47361924	47685378	553	305809	3831737
3	6902	47637604	7046	49646116	48631492	570	324900	3934140
4	10097	101949409	7248	52533504	73183056	883	779689	8915651
5	8097	65561409	5256	27625536	42557832	433	187489	3506001
6	11116	123565456	14090	198528100	156624440	839	703921	9326324
7	4880	23814400	3525	12425625	17202000	933	870489	4553040
8	7355	54096025	5431	29495761	39945005	526	276676	3868730
9	10066	101324356	7680	58982400	77306880	676	456976	6804616
10	7884	62157456	8226	67667076	64853784	684	467856	5392656
	78325	653107157	70733	572877843	594729518	6517	4550205	52232475

Таблица 3


1	331	109561	1654669	2246580	1770519	139020
2	486	236196	3367494	3805746	3344652	268758
3	498	248004	3437196	4016220	3508908	283860
4	789	622521	7966533	6399984	5718672	696687
5	359	128881	2906823	2275848	1886904	155447
6	724	524176	8047984	11821510	10201160	607436
7	821	674041	4006480	3288825	2894025	765993
8	428	183184	3147940	2856706	2324468	225128
9	607	368449	6110062	5191680	4661760	410332
10	619	383161	4880196	5626584	5091894	423396
	5662	3478174	45525377	47529683	41402962	3976057

Рассчитаем средние значения, дисперсии (по формуле разностей) и среднеквадратические отклонения каждого из признаков.

Y: , ,

, .

: : ,

, ,

: , .

Теперь найдем средние значения произведений признаков:

;

Вычисляем межфакторные и парные коэффициенты линейной корреляции:

;

Займемся отбором факторных признаков в модель.

Сначала с вероятностью 0,95 оценим статистическую значимость каждого из имеющихся факторных признаков. Согласно таблице 3 приложения критическое значение критерия Стьюдента для уровня значимости

α = 1 — 0,95 = 0,05 и числа степеней свободы ν =10 – 2 = 8 равно

Вычислим наблюдаемые значения:

: ;

: .

Видим, что только для признака выполняется правило проверки гипотезы. Следовательно, он однозначно включается в модель.

Между признаками и нарушается принцип отсутствия автокорреляции, , связь между ними тесная. Поэтому, один из этих признаков подлежит исключению. Поскольку >, то признак исключается из рассмотрения, а признак — остается.

Множественный коэффициент корреляции равен:

Найденное значение указывает на высокую степень тесноты и линейности корреляционной зависимости.

С вероятностью 0,95 выдвинем гипотезу о статистической значимости эмпирических данных. Поскольку n = 10, k =2, то α=1- 0,95 = 0,05 , . Согласно таблице 4

Наблюдаемое значение равно:

Правило проверки гипотезы выполнено. Поэтому с вероятностью 0,95 гипотеза о статистической значимости эмпирических данных принимается, корреляционная модель может быть построена.

Общий индекс детерминации равен

Следовательно, факторные признаки, отобранные в модель, влияют на

результативный в пределах 59,43%. Это не очень сильное влияние. Согласно закону Парето степень влияния должна быть не меньше 80%.

Линейная модель, описывающая корреляционную зависимость, имеет следующий общий вид:

Используя данные таблиц, получаем систему нормальных уравнений:

;

Решая систему, получаем:

, , .

Итак, искомое уравнение регрессии имеет вид:

Найдем параметры уравнения регрессии упрощенным способом:

Найдем среднюю ошибку аппроксимации. Для этого, подставив значения факторных признаков, соответствующих данному значению y в модель, получаем теоретические значения y* . Вычисления производим в таблице:

у
4999	5349	331	6672,0838	0,3347
6929	6882	486	7708,8693	0,1126
6902	7046	498	7824,4743	0,1337
10097	7248	789	8461,0588	0,1620
8097	5256	359	6644,8366	0,1793
11116	14090	724	12009,5096	0,0804
4880	3525	821	6574,3001	0,3472
7355	5431	428	6894,8649	0,0626
10066	7680	607	8339,5446	0,1715
7884	8226	619	8642,1934	0,0962
	—	—	—	1,6801

Итак, значение средней ошибки аппроксимации равно

что говорит о низкой точности модели.

Определим значения дельта – коэффициентов. Имеем:

или 91,54%,

или 8,46%.

Сумма дельта – коэффициентов равна 1, следовательно, есть все основания полагать, что вычисления произведены верно. Итак, признак влияет на признак Y в пределах 91,54%, а степень влияния признака равна 8,46%.

Найдем величины средних коэффициентов эластичности:

или 47,82%,

или 12,23%.

Таким образом, изменение признака на 1% влечет за собой изменение признака Y на 47,82%, а вследствие изменения признака , изменение признака Y составит 12,23%

Перейдем к модели с парной регрессией. Поскольку одновременно минимум дельта – коэффициента и среднего коэффициента эластичности соответствует признаку ,