Ошибки спецификации модели множественной регрессии - Решение и исправление самых разных ошибок на TopOshibok.ru

Возможные ошибки спецификации модели:

1. Неправильный выбор вида уравнения
регрессии

2. В уравнение регрессии включена лишняя
(незначимая) переменная

3. В уравнении регрессии пропущена
значимая переменная

Неправильный выбор вида функции в
уравнении

Пусть на первом этапе была сделана
спецификация модели в виде:

в
которой функция f_F(x,a₀,a₁)
выбрана не верно. Предположим, что
y_T=f_T(x,a₀,a₁)+v
– правильный вид функции регрессии.
Тогда справедливо выражение:

Из
выражения следует:

Иными словами, математические ожидания
эндогенной переменной, полученные с
помощью функций f_T
и f_F
не совпадают, т.е. первая предпосылка
теоремы Гаусса-Маркова M(ulx)=0
не выполняется

Следовательно, в результате оценивания
такой модели параметры а₀ и а₁
будут смещенными

Симптомы наличия ошибки спецификации
первого типа:

1. Несоответствие диаграммы рассеяния,
построенной по имеющейся выборке виду
функции, принятой в спецификации

2. В динамических моделях длительно
сохраняется знак значений оценок
случайных возмущений у смежных (по
номеру t ) уравнений
наблюдений

Именно этот симптом и улавливается
статистикой DW Дарбина–Уотсона!

В силу данного обстоятельства тесту
Дарбина–Уотсона в эконометрике придается
большое значение.

Способ устранения: выбор другой формы
спецификации модели. Например, нелинейная
вместо линейной и т.д.

2. В уравнение регрессии включена
лишняя переменная

Пусть
на этапе спецификации в модель включена
«лишняя» переменная, например, X₂

«Правильная»
спецификация должна иметь вид:

Последствия:

1.
Оценки параметров а₀, а₁, а₂останутся несмещенными, но потеряют
свою эффективность (точность)

2. Увеличивается ошибка прогноза по
модели

как за счет ошибок оценок коэффициентов
и σ_u,
так и за счет последнего слагаемого.
Это особенно опасно при больших абсолютных
значениях регрессора

Диагностика:

В моделях множественной регрессии
необходимо для каждого коэффициента
уравнения проверять статистическую
гипотезу H₀: a_i=0.
Вспомним, что для этого достаточно
оценить дробь Стьюдента и сравнить ее
значение с критическим значением
распределения Стьюдента, которое
вычисляется по значению доверительной
вероятности и значению степени свободы
n₂ = n – (k+1)

3.
В модели не достает важной переменной

Последствия такие же, как и в первом
случае: получаем смещенные оценки
параметров модели

Для устранения необходимо вернуться к
изучению особенностей поведения
экономического объекта, выявить опущенные
переменные и дополнить ими модель

29. Фиктивные переменные и особенности их использования в моделях.

На практике приходится учитывать в
моделях факторы, носящие качественный
характер, значения которых в наблюдениях
не возможно измерить с помощью числовой
шкалы.

Примеры.

Моделирование влияния пола специалистов
на уровень зарплаты.

Моделирование доходов граждан от типа
учебного заведения, в котором он получил
образование (государственное, частное,
специализированное,…)

Модель инфляции с учетом различных
видов регулирования со стороны государства

Возможны два подхода к решению задачи:

— построить несколько моделей отдельно
для каждого значения (градации)
качественной переменной

— учесть влияние качественного фактора
в одной модели

Второй способ представляется более
прогрессивным, т.к в этом случае появляется
возможность оценить статистическую
значимость влияния данного фактора на
поведение эндогенной переменной на
фоне других факторов, внесенных в
спецификацию модели

Пример. Изучается зависимость
расходов на образование «С» в «обычных»
и «специализированных» школах в
зависимости от числа учащихся N

Предположим:

Зависимость затрат на обучение от
количества учащихся N в
обоих типах школ одинакова

2. Разница в затратах объясняется
необходимостью приобретения
специализированного оборудования для
обучения специальным дисциплинам

Тогда если строить различные модели
для каждого типа школ, то спецификацию
моделей можно записать в виде:

Y^o
= a₀ +
a₁N +u

Y^s
= b₀ +
a₁N +
v

Обе
модели можно объединить, если ввести
переменную d, область
определения которой два целых числа :
0 и 1. При этом:

Спецификация такой модели имеет вид:

Y = a₀
+ a₁N
+ δd + u

Тогда при d=0 получим Y^o
= a₀ + a₁N
+ u

при d=1 получим Y^s
= (a₀+δ)
+a₁N +
v

d – фиктивная переменная
сдвига

Фиктивные переменные часто применяются
при построении динамических моделей,
когда с определенного момента времени
начинает действовать какой-либо
качественный фактор

Пусть некоторый качественный фактор
имеет несколько градаций (более 2-х)

Введение в модель фиктивных переменных
с несколькими градациями рассмотрим
на примере шанхайских школ, где имеются
4 категории школ: общеобразовательные,
технические, ПТУ и специализированные

Казалось достаточно ввести фиктивную
переменную сдвига d, придав
ей четыре различных значения и проблема
будет решена

Такой подход мало эффективен, т.к не
удается оценить статистическую значимость
влияния каждой градации на значения
эндогенной переменной

В этом случае имеет смысл ввести отдельную
переменную для каждой градации фактора

Например:

Однако, если взять спецификацию модели
в виде:

Y=a₀
+ a₁d₁+a₂d₂+a₃d₃+a₄d₄+a₅N+u

при этом всегда верно тождество
d₁+d₂+d₃+d₄=1

Это означает, что матрица Х коэффициентов
системы уравнений наблюдений будет
коллинеарной т.к в ней присутствует
столбец из 1, и как следствие отсутствует
возможность применения МНК для оценки
параметров модели.

Предлагается в спецификацию ввести
(к-1) фиктивную переменную (к- кол-во
градаций), сделав одну из градаций
базовой, относительно которой изучать
влияние остальных градаций. Проблемы
мультиколинеарности в этом случае не
возникает

Для учета возможного изменения наклона
графика модели при изменении градации
качественного фактора предлагается
ввести в спецификацию модели еще одно
слагаемое вида «d умноженное
на x»

Вернемся к примеру изучения зависимости
расходов на образование в различных
школах. Для простоты ограничимся лишь
двумя градациями фактора «тип школы»:
d=0 – обычная школа;

d=1 – профессиональная
школа

Спецификацию модели следует записать
в виде:

Y = a₀
+ a₁N
+ a₂*d
+ a₃dN
+U

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

Источник

4.
Использование
предварительной информации о значениях некоторых параметров. Иногда значения некоторых неизвестных параметров
модели могут быть определены по пробным выборочным наблюдениям, тогда
мультиколлинеарность может быть устранена путем установления значений параметра
у одной коррелирующих переменных. Ограниченность метода – в сложности получения
предварительных значений параметров с высокой точностью.

5.
Преобразование переменных. Для устранения мультиколлинеарности можно
преобразовать переменные, например, путем линеаризации или получения
относительных показателей, а также перехода от номинальных к реальным
показателям (особенно в макроэкономических исследованиях).

При построении модели множественной регрессии с точки
зрения обеспечения ее высокого качества возникают следующие вопросы:

1.
Каковы признаки качественной
модели?

2.
Какие ошибки спецификации могут
быть?

3.
Каковы последствия ошибок
спецификации?

4.
Какие существуют методы
обнаружения и устранения ошибок спецификации?

Рассмотрим основные признаки качественной модели
множественной регрессии:

1.
Простота. Из двух моделей примерно одинаковых статистических
свойств более качественной является та, которая содержит меньше переменных, или
же более простая по аналитической форме.

2.
Однозначность. Метод вычисления коэффициентов должен быть одинаков
для любых наборов данных.

3.
Максимальное соответствие. Этот признак говорит о том, что основным критерием
качества модели является коэффициент детерминации, отражающий объясненную
моделью вариацию зависимой переменной. Для практического использования выбирают
модель, для которой расчетное значение F-критерия для
коэффициента детерминации б четыре раза больше табличного.

4.
Согласованность с теорией. Получаемые значения коэффициентов должны быть
интерпретируемы с точки зрения экономических явлений и процессов. К примеру,
если строится линейная регрессионная модель спроса на товар, то соответствующий
коэффициент при цене товара должен быть отрицательным.

5.
Хорошие прогнозные качества.
Обязательным условием построения
качественной модели является возможность ее использования для прогнозирования.

Одной из основных ошибок, допускаемых при построении
регрессионной модели, является ошибка спецификации (рис. 4.3).
Под ошибкой спецификации понимается неправильный выбор функциональной формы
модели или набора объясняющих переменных.

Различают следующие виды ошибок спецификации:

1.
Невключение в модель полезной
(значимой) переменной.

2.
Добавление в модель лишней
(незначимой) переменной

3.
Выбор неправильной функциональной
формы модели

Последствия ошибки первого вида (невключение в
модель значимой переменной) заключаются в том, что полученные по МНК оценки
параметров являются смещенными и несостоятельными, а значение коэффициента
детерминации значительно снижаются.

При добавлении в модель лишней переменной
(ошибка второго вида) ухудшаются статистические свойства оценок
коэффициентов, возрастают их дисперсии, что ухудшает прогнозные качества модели
и затрудняет содержательную интерпретацию параметров, однако по сравнению с
другими ошибками ее последствия менее серьезны.

Если же осуществлен неверный выбор
функциональной формы модели, то есть допущена ошибка третьего вида, то
получаемые оценки будут смещенными, качество модели в целом и отдельных
коэффициентов будет невысоким. Это может существенно сказаться на прогнозных
качествах модели.

Ошибки спецификации первого вида можно обнаружить только
по невысокому качеству модели, низким значениям R².

Обнаружение ошибок спецификации второго вида, если лишней
является только одна переменная, осуществляется на основе расчета t — статистики для коэффициентов. При лишней переменной коэффициент
будет статистически незначим.

Рис. 4.3 Ошибки спецификации и свойства качественной
регрессионной модели

Источник

ЭКОНОМЕТРИКА Лекция 14 Последствия ошибок в спецификации моделей Замещающие переменные

Последствия ошибок спецификации модели Возможные ошибки спецификации модели: 1. Неправильный выбор вида уравнения регрессии 2. В уравнение регрессии включена лишняя (незначимая) переменная 3. В уравнении регрессии пропущена значимая переменная

Последствия ошибок спецификации модели 1. Неправильный выбор вида функции в уравнении Пусть на первом этапе была сделана спецификация модели в виде: (1. 1) в которой функция f. F(x, a 0, a 1) выбрана не верно Предположим, что y. T=f. T(x, a 0, a 1)+v – правильный вид функции регрессии Тогда справедливо выражение: (1. 2)

Последствия ошибок спецификации модели Из выражения (1. 2) следует: (1, 3) Иными словами, математические ожидания эндогенной переменной, полученные с помощью функций f. T и f. F не совпадают, т. е. первая предпосылка теоремы Гаусса. Маркова M(ulx)=0 не выполняется Следовательно, в результате оценивания такой модели параметры а 0 и а 1 будут смещенными

Последствия ошибок спецификации модели Симптомы наличия ошибки спецификации первого типа: 1. Несоответствие диаграммы рассеяния, построенной по имеющейся выборке виду функции, принятой в спецификации 2. В динамических моделях длительно сохраняется знак значений оценок случайных возмущений у смежных (по номеру t ) уравнений наблюдений Именно этот симптом и улавливается статистикой DW Дарбина–Уотсона! В силу данного обстоятельства тесту Дарбина– Уотсона в эконометрике придается большое значение.

Пример исправления ошибки первого типа Задача. Построить модель относительной стоимости подержанных автомобилей фирмы Ситроен Продажа p % Колтво лет Продажа p % Колво лет 1 100 0 9 52 3 17 42 6 2 80 1 10 57 3 18 40 6 3 76 1 11 50 4 19 40 6 4 80 1 12 50 4 20 37 7 5 70 2 13 45 4 21 37 7 6 65 2 14 50 5 22 33 7 7 60 2 15 45 5 23 35 8 8 49 3 16 45 5 24 37 8 25 32 9

Пример исправления ошибки первого типа 1. Линейная модель 2. Нелинейная модель

Последствия ошибок спецификации модели 2. В уравнение регрессии включена лишняя переменная Пусть на этапе спецификации в модель включена «лишняя» переменная, например, X 2 (2. 1) «Правильная» спецификация должна иметь вид: (2. 2)

Последствия ошибок спецификации модели Последствия: 1. Оценки параметров а 0, а 1, а 2 останутся несмещенными, но потеряют свою эффективность (точность) 2. Увеличивается ошибка прогноза по модели как за счет ошибок оценок коэффициентов и σu, так и за счет последнего слагаемого Это особенно опасно при больших абсолютных значениях регрессора

Последствия ошибок спецификации модели Диагностика: В моделях множественной регрессии необходимо для каждого коэффициента уравнения проверять статистическую гипотезу H 0: ai=0 Вспомним, что для этого достаточно оценить дробь Стьюдента и сравнить ее значение с критическим значением распределения Стьюдента, которое вычисляется по значению доверительной вероятности и значению степени свободы 2 = n – (k+1)

Последствия ошибок спецификации модели 3. В модели не достает важной переменной Последствия такие же, как и в первом случае: получаем смещенные оценки параметров модели Для устранения необходимо вернуться к изучению особенностей поведения экономического объекта, выявить опущенные переменные и дополнить ими модель Вот тут и возникают неприятности!

Замещающие переменные Проблемы в использовании переменных: 1. Не возможно получение данных по переменной 2. Не возможно измерить количественно переменную Такие ситуации характерны для переменных социально-экономического характера (качество образования и т. п. ) Выход из ситуации – подбор переменной заместителя

Замещающие переменные Определение. Переменные, которые вводятся в эконометрические модели вместо тех переменных, которые не поддаются измерению, называются замещающими Требование. Замещающая переменная должна коррелировать с переменной, которую она замещает Если Cor(x, xpr)=1, то xpr – называют совершенным регрессором В качестве замещающей переменной часто используется время и лаговые переменные

Замещающие переменные Пример. Рассмотрим модель связывающую расходы потребителей на питание (y) с личным располагаемым доходом (х) и относительной ценой продовольствия (р) (4. 1) Предположим, что нет доступа к данным о располагаемом личном доходе (х) Если эту переменную не учитывать, то оценки оставшихся параметров будут смещенными, а соответствующие тесты не корректны Предположим, что log(x) имеет временной тренд

Замещающие переменные Тогда уравнение (4. 1) можно записать в виде: Регрес Оценки коэффициентов соры b 1 b 2 b 3 Log(x), 0. 64 log(p) (0. 03) Log(p), t Log(p) -0. 48 (0. 12) -0. 47 (0. 13) 2. 04 (0. 33) R 2 0. 99 0. 023 (0. 001) 0. 98 0. 63

Замещающие переменные В общем случае, пусть «правильная» модель: (4. 2) Предположим, что х1 не доступна для наблюдений Введем переменную z, которая связана с х1 (4. 3) где: λ и μ неизвестные коэффициенты (4. 4) После оценки модели (4. 4) нет формальной возможности получить значения λ, μ, а 1

Проблемы с использованием замещающих переменных Пример построения производственной функции Кобба-Дугласа Индексы реального объема производства, Спецификация модели в промышленности США в 1899 -1922 гг. Год Y K L 1899 100 100 1911 153 216 145 1900 101 107 105 1912 177 226 152 1901 112 114 110 1913 184 236 154 1902 122 118 1914 169 244 149 1903 124 131 123 1915 189 266 154 1904 122 138 116 1916 225 298 182 1905 143 149 125 1917 227 335 196 1906 152 163 133 1918 223 366 200 1907 151 176 138 1919 218 387 193 1908 126 185 121 1920 231 407 193 1909 155 198 140 1921 179 417 147 1910 159 208 144 1922 240 431 161 Оценка модели [d. L; d. U] = [1, 26; 1, 44]

Проблемы с использованием замещающих переменных Проверка адекватности модели Для проверки адекватности взяты данные за 1922 г (Y 1922 = 240; K 1922 = 431; L 1922 = 161). Для этого вычисляем величины и делаем точечный прогноз значения y 0 = ln(Y 1922 /L 1922) = 0, 399: Критическое значение критерия Стьюдента tкрит(0. 99, 21)=2. 8 Тогда доверительный интервал:

Построение функции Кобба-Дугласа Модель оказалась не адекватной Дальнейшие возможности: — проверить возможность исключения незначимых параметров -попытаться изменить вид модели — исследовать возможность включения дополнительной переменной Делаем все по порядку

Построение функции Кобба-Дугласа 1. Проверка возможности исключения параметров Проверяем статистическую гипотезу Н 0: bi=0, tкрит(0. 95, 21)=2. 1 Вывод: b 0=ln(a 0)=0, следовательно, a 0=1

Построение функции Кобба-Дугласа Исследуется спецификация модели вида: (5. 2) Оценка модели (5. 2) по тем же данным есть:

Построение функции Кобба-Дугласа Проверка адекватности модели (5. 2) Вновь вычисляются необходимые величины: Сделаем точечную проверку адекватности для доверительных вероятностей 0. 99 и 0. 95 tкрит(0. 99, 21)=2. 8, tкрит(0. 95, 21)=2. 1

Построение функции Кобба-Дугласа 2. Введем дополнительную переменную Модели (5. 1) и (5. 2) не учитывают влияние технического прогресса на уровень выпуска продукции Учтем это влияние с помощью замещающей переменной t – время следующим образом Введем переменную Et –эффективность единицы труда Et зависит от квалификации, образования и др. личных качеств работников Простейшая модель технологического процесса (5. 3)

Построение функции Кобба-Дугласа С учетом технологического процесса спецификация модели принимает вид: (5. 4) где: a 3 = (1 -a 1) · ln(1+g) 0 В логарифмическом виде модель (5. 4) имеет вид: (5. 5)

Построение функции Кобба-Дугласа Оценка модели (5. 5) по тем же данным приняла вид: (5. 6) Из (5. 6) легко видеть, что оценки коэффициентов b 0=ln(a 0) и а 1 оказались незначимыми (гипотезы Н 0: b 0=0 и H 0: a 1=0 не отвергаются исходными данными) Но это приводит к абсурду: можно не затрачивая ни капитал ни труд производить продукцию

Построение функции Кобба-Дугласа Вопрос. Почему статистические данные «не пустили» в модель время как заместитель технического прогресса? Ответ. Переменная К (капитальные затраты) так же являются функцией времени В результате введения в модель еще переменной времени привело к мультиколинеарности матрицы коэффициентов наблюдения (матрица Х) Выражение стало не устойчивым из-за неустойчивости обратной матрицы

Построение функции Кобба-Дугласа Вывод. Последствием не аккуратного использования замещающих переменных приводит к нарушению обязательного условия МНК о не вырожденности матрицы коэффициентов уравнений наблюдений При использовании замещающих переменных необходим предварительный анализ степени корреляции между экзогенными переменными

Построение функции Кобба-Дугласа 3. Проверка возможности изменить вид модели Откажемся от жесткого условия линейной однородности (а 1+а 2=1) производственной функции Тогда модель примет вид: (5. 7) Оценка модели (5. 7) в конечном итоге получилась следующей:

Замещающие переменные Выводы: 1. Ошибки в спецификации модели могут приводить к нарушению условий теоремы Гаусса-Маркова и потере адекватности 2. Замещающие переменные – эффективный инструмент учета в модели качественных факторов 3. При введении в спецификацию замещающих переменных необходимо исследовать регрессоры на возможность мультиколлинеарности

Источник