Стандартная ошибка прогноза эконометрика

Имея
прямую регрессии, необходимо оценить
насколько сильно точки исходных данных
отклоняются от прямой регрессии. Можно
выполнить оценку разброса, аналогичную
стандартному отклонению выборки. Этот
показатель, называемый стандартной
ошибкой оценки, демонстрирует величину
отклонения точек исходных данных от
прямой регрессии в направлении оси Y.
Стандартная ошибка оценки ()
вычисляется по следующей формуле.

Стандартная
ошибка оценки измеряет степень отличия
реальных значений Y от оцененной величины.
Для сравнительно больших выборок следует
ожидать, что около 67% разностей по модулю
не будет превышать

и около 95% модулей разностей будет не
больше 2.

Стандартная
ошибка оценки подобна стандартному
отклонению. Ее можно использовать для
оценки стандартного отклонения
совокупности. Фактически

оценивает стандартное отклонение

слагаемого ошибки

в статистической модели простой линейной
регрессии. Другими словами,

оценивает общее стандартное отклонение

нормального распределения значений Y,
имеющих математические ожидания

для каждого X.

Малая
стандартная ошибка оценки, полученная
при регрессионном анализе, свидетельствует,
что все точки данных находятся очень
близко к прямой регрессии. Если стандартная
ошибка оценки велика, точки данных могут
значительно удаляться от прямой.

2.3 Прогнозирование величины y

Регрессионную
прямую можно использовать для оценки
величины переменной Y
при данных значениях переменной X. Чтобы
получить точечный прогноз, или предсказание
для данного значения X, просто вычисляется
значение найденной функции регрессии
в точке X.

Конечно
реальные значения величины Y,
соответствующие рассматриваемым
значениям величины X, к сожалению, не
лежат в точности на регрессионной
прямой. Фактически они разбросаны
относительно прямой в соответствии с
величиной
.
Более того, выборочная регрессионная
прямая является оценкой регрессионной
прямой генеральной совокупности,
основанной на выборке из определенных
пар данных. Другая случайная выборка
даст иную выборочную прямую регрессии;
это аналогично ситуации, когда различные
выборки из одной и той же генеральной
совокупности дают различные значения
выборочного среднего.

Есть
два источника неопределенности в
точечном прогнозе, использующем уравнение
регрессии.

  1. Неопределенность,
    обусловленная отклонением точек данных
    от выборочной прямой регрессии.

  2. Неопределенность,
    обусловленная отклонением выборочной
    прямой регрессии от регрессионной
    прямой генеральной совокупности.

Интервальный
прогноз значений переменной Y
можно построить так, что при этом будут
учтены оба источника неопределенности.

Стандартная
ошибка прогноза

дает меру вариативности предсказанного
значения Y
около истинной величины Y
для данного значения X.
Стандартная ошибка прогноза равна:

Стандартная
ошибка прогноза зависит от значения X,
для которого прогнозируется величина
Y.

минимально, когда
,
поскольку тогда числитель в третьем
слагаемом под корнем в уравнении будет
0. При прочих неизменных величинах
большему отличию соответствует большее
значение стандартной ошибки прогноза.

Если
статистическая модель простой линейной
регрессии соответствует действительности,
границы интервала прогноза величины Y
равны:

где

— квантиль распределения Стьюдента с
n-2 степенями свободы ().
Если выборка велика (),
этот квантиль можно заменить соответствующим
квантилем нормального распределения.
Например, для большой выборки 95%-ный
интервал прогноза задается следующими
значениями:

Завершим
раздел обзором предположений, положенных
в основу статистической модели линейной
регрессии.

  1. Для
    заданного значения X генеральная
    совокупность значений Y имеет нормальное
    распределение относительно регрессионной
    прямой совокупности. На практике
    приемлемые результаты получаются
    и
    тогда, когда значения Y имеют
    нормальное распределение лишь
    приблизительно.

  2. Разброс
    генеральной совокупности точек данных
    относительно регрессионной прямой
    совокупности остается постоянным всюду
    вдоль этой прямой. Иными словами, при
    возрастании значений X в точках данных
    дисперсия генеральной совокупности
    не увеличивается и не уменьшается.
    Нарушение этого предположения называется
    гетероскедастичностью.

  3. Слагаемые
    ошибок

    независимы между собой. Это предположение
    определяет случайность выборки точек
    Х-Y.
    Если точки данных X-Y
    записывались в течение некоторого
    времени, данное предположение часто
    нарушается. Вместо независимых данных,
    такие последовательные наблюдения
    будут давать серийно коррелированные
    значения.

  4. В
    генеральной совокупности существует
    линейная зависимость между X и Y.
    По аналогии с простой линейной регрессией
    может рассматриваться и нелинейная
    зависимость между X и У. Некоторые такие
    случаи будут обсуждаться ниже.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Когда мы подгоняем регрессионную модель к набору данных, нас часто интересует, насколько хорошо регрессионная модель «подходит» к набору данных. Две метрики, обычно используемые для измерения согласия, включают R -квадрат (R2) и стандартную ошибку регрессии , часто обозначаемую как S.

В этом руководстве объясняется, как интерпретировать стандартную ошибку регрессии (S), а также почему она может предоставить более полезную информацию, чем R 2 .

Стандартная ошибка по сравнению с R-квадратом в регрессии

Предположим, у нас есть простой набор данных, который показывает, сколько часов 12 студентов занимались в день в течение месяца, предшествующего важному экзамену, а также их баллы за экзамен:

Пример интерпретации стандартной ошибки регрессии

Если мы подгоним простую модель линейной регрессии к этому набору данных в Excel, мы получим следующий результат:

Вывод регрессии в Excel

R-квадрат — это доля дисперсии переменной отклика, которая может быть объяснена предикторной переменной. При этом 65,76% дисперсии экзаменационных баллов можно объяснить количеством часов, потраченных на учебу.

Стандартная ошибка регрессии — это среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии. В этом случае наблюдаемые значения отклоняются от линии регрессии в среднем на 4,89 единицы.

Если мы нанесем фактические точки данных вместе с линией регрессии, мы сможем увидеть это более четко:

Обратите внимание, что некоторые наблюдения попадают очень близко к линии регрессии, в то время как другие не так близки. Но в среднем наблюдаемые значения отклоняются от линии регрессии на 4,19 единицы .

Стандартная ошибка регрессии особенно полезна, поскольку ее можно использовать для оценки точности прогнозов. Примерно 95% наблюдений должны находиться в пределах +/- двух стандартных ошибок регрессии, что является быстрым приближением к 95% интервалу прогнозирования.

Если мы заинтересованы в прогнозировании с использованием модели регрессии, стандартная ошибка регрессии может быть более полезной метрикой, чем R-квадрат, потому что она дает нам представление о том, насколько точными будут наши прогнозы в единицах измерения.

Чтобы проиллюстрировать, почему стандартная ошибка регрессии может быть более полезной метрикой для оценки «соответствия» модели, рассмотрим другой пример набора данных, который показывает, сколько часов 12 студентов занимались в день в течение месяца, предшествующего важному экзамену, а также их экзаменационная оценка:

Обратите внимание, что это точно такой же набор данных, как и раньше, за исключением того, что все значения s сокращены вдвое.Таким образом, студенты из этого набора данных учились ровно в два раза дольше, чем студенты из предыдущего набора данных, и получили ровно половину экзаменационного балла.

Если мы подгоним простую модель линейной регрессии к этому набору данных в Excel, мы получим следующий результат:

Вывод регрессии из простой линейной модели в Excel

Обратите внимание, что R-квадрат 65,76% точно такой же, как и в предыдущем примере.

Однако стандартная ошибка регрессии составляет 2,095 , что ровно вдвое меньше стандартной ошибки регрессии в предыдущем примере.

Если мы нанесем фактические точки данных вместе с линией регрессии, мы сможем увидеть это более четко:

Диаграмма рассеяния для простой линейной регрессии

Обратите внимание на то, что наблюдения располагаются гораздо плотнее вокруг линии регрессии. В среднем наблюдаемые значения отклоняются от линии регрессии на 2,095 единицы .

Таким образом, несмотря на то, что обе модели регрессии имеют R-квадрат 65,76% , мы знаем, что вторая модель будет давать более точные прогнозы, поскольку она имеет более низкую стандартную ошибку регрессии.

Преимущества использования стандартной ошибки

Стандартную ошибку регрессии (S) часто бывает полезнее знать, чем R-квадрат модели, потому что она дает нам фактические единицы измерения. Если мы заинтересованы в использовании регрессионной модели для получения прогнозов, S может очень легко сказать нам, достаточно ли точна модель для прогнозирования.

Например, предположим, что мы хотим создать 95-процентный интервал прогнозирования, в котором мы можем прогнозировать результаты экзаменов с точностью до 6 баллов от фактической оценки.

Наша первая модель имеет R-квадрат 65,76%, но это ничего не говорит нам о том, насколько точным будет наш интервал прогнозирования. К счастью, мы также знаем, что у первой модели показатель S равен 4,19. Это означает, что 95-процентный интервал прогнозирования будет иметь ширину примерно 2*4,19 = +/- 8,38 единиц, что слишком велико для нашего интервала прогнозирования.

Наша вторая модель также имеет R-квадрат 65,76%, но опять же это ничего не говорит нам о том, насколько точным будет наш интервал прогнозирования. Однако мы знаем, что вторая модель имеет S 2,095. Это означает, что 95-процентный интервал прогнозирования будет иметь ширину примерно 2*2,095= +/- 4,19 единиц, что меньше 6 и, следовательно, будет достаточно точным для использования для создания интервалов прогнозирования.

Дальнейшее чтение

Введение в простую линейную регрессию
Что такое хорошее значение R-квадрата?

В зависимости от контекста термин «прогнозирование» в эконометрике может трактоваться по-разному. Применительно к данным временных рядов речь обычно идет о прогнозировании будущего значения зависимой переменной, например, курса рубля или ВВП. Когда же речь идет о пространственных выборках, под прогнозированием понимают предсказание значения зависимой переменной для заданных значений объясняющих переменных. Например, предсказание цены квартиры с заданной жилой площадью.

Формально задачу построения прогноза можно представить следующим образом. Имеется модель, для которой выполнены все предпосылки КЛМПР:

\begin{equation*} y_i=\beta _1+\beta _2x_i+\varepsilon _i \end{equation*}

Представим, что мы уже воспользовались МНК и получили оцененную на основе n наблюдений линию регрессии:

\begin{equation*} \widehat y_i=\widehat {\beta }_1+\widehat {\beta }_2x_i \end{equation*}

Теперь пусть у нас есть известное (n+1)-ое наблюдение регрессора \(x_{n+1}\), но неизвестно соответствующее значение зависимой переменной \(y_{n+1}\) и нужно построить его прогноз. Естественной идеей будет подставить известное значение в оцененную регрессию: \

\begin{equation*} \widehat y_{n+1}=\widehat {\beta }_1+\widehat {\beta }_2x_{n+1} \end{equation*}

Оказывается, что это хорошая мысль: такой прогноз будет несмещенным и эффективным (то есть будет характеризоваться минимальной ожидаемой квадратичной ошибкой прогноза).

Докажем несмещенность этого прогноза.

Вычислим математическое ожидание фактического значения \(y_{n+1}\) и нашего прогноза \(\widehat y_{n+1}\). Если прогноз несмещенный, то эти математические ожидания будут совпадать.

Воспользуемся тем, что, как мы доказали выше, \(\widehat {\beta }_1\) и \(\widehat {\beta }_2\) — несмещенные оценки коэффициентов \(\beta _1\) и \(\beta _2\):

\begin{equation*} E\left(\widehat y_{n+1}\right)=E\left(\widehat {\beta }_1+\widehat {\beta }_2x_{n+1}\right)=E\left(\widehat {\beta }_1\right)+E\left(\widehat {\beta }_2\right)x_{n+1}=\beta _1+\beta _2x_{n+1} \end{equation*}

Кроме того:

\begin{equation*} E\left(y_{n+1}\right)=E\left(\beta _1+\beta _2x_{n+1}+\varepsilon _{n+1}\right)=\end{equation*}

\begin{equation*} =\beta _1+\beta _2x_{n+1}+E\left(\varepsilon _{n+1}\right)=\beta _1+\beta _2x_{n+1} \end{equation*}

Следовательно, \(E\left(y_{n+1}\right)=E\left(\widehat y_{n+1}\right)\).

Кроме самого прогноза нас интересует его точность. Чтобы её оценить, целесообразно вычислить математические ожидания квадрата ошибки прогноза:

\begin{equation*} E\left(\widehat y_{n+1}-y_{n+1}\right)^2=E\left(\widehat {\beta }_1+\widehat {\beta }_2x_{n+1}-\beta _1-\beta _2x_{n+1}-\varepsilon _{n+1}\right)^2= \end{equation*}

\begin{equation*} =E\left(\left(\widehat {\beta }_1-\beta _1\right)+\left(\widehat {\beta }_2-\beta _2\right)x_{n+1}-\varepsilon _{n+1}\right)^2= \end{equation*}

\begin{equation*} =E\left(\widehat {\beta }_1-\beta _1\right)^2+x_{n+1}^2E\left(\widehat {\beta }_2-\beta _2\right)^2+E\left(\varepsilon _{n+1}\right)^2+ \end{equation*}

\begin{equation*} +2x_{n+1}E\left(\left(\widehat {\beta }_1-\beta _1\right)\left(\widehat {\beta }_2-\beta _2\right)\right)-2E\left(\left(\widehat {\beta }_1-\beta _1\right)\varepsilon _{n+1}\right)-\end{equation*}

\begin{equation*}-2x_{n+1}E\left(\left(\widehat {\beta }_2-\beta _2\right)\varepsilon _{n+1}\right)= \end{equation*}

\begin{equation*} \mathit{var}\left(\widehat {\beta }_1\right)+x_{n+1}^2\mathit{var}\left(\widehat {\beta }_2\right)+\sigma ^2+2x_{n+1}\mathit{cov}\left(\widehat {\beta }_1,\widehat {\beta }_2\right)-0-0= \end{equation*}

\begin{equation*} \frac{\frac{\sigma ^2} n{\ast}\sum x_i^2}{\sum \left(x_i-\overline x\right)^2}+x_{n+1}^2\frac{\sigma ^2}{\Sigma \left(x_i-\overline x\right)^2}+\sigma ^2-2x_{n+1}\frac{\overline x{\ast}\sigma ^2}{\Sigma \left(x_i-\overline x\right)^2}= \end{equation*}

\begin{equation*}  =\sigma ^2{\ast}\left(1+\frac 1 n+\frac{\left(x_{n+1}-\overline x\right)^2}{\sum \left(x_i-\overline x\right)^2}\right)\end{equation*}

Здесь в предпоследнем равенстве мы воспользовались формулами для \(\mathit{var}\left(\widehat {\beta }_1\right)\), \(\mathit{var}\left(\widehat {\beta }_2\right)\) и \(\mathit{cov}\left(\widehat {\beta }_1,\widehat {\beta }_2\right)\), представленными выше.

Дисперсия ошибки прогноза \(\sigma ^2\), неизвестная нам в реальности, может быть заменена несмещенной оценкой \(S^2.\) Если проделать эту замену, а затем извлечь из полученного результата корень, то получим стандартную ошибку прогноза:

\begin{equation*} \delta =\sqrt{s^2{\ast}\left(1+\frac 1 n+\frac{\left(x_{n+1}-\overline x\right)^2}{\sum \left(x_i-\overline x\right)^2}\right)}\end{equation*}

Эту стандартную ошибку прогноза можно использовать для построения доверительного интервала прогноза.

95-процентный доверительный интервал для прогноза — это такой интервал, который накрывает истинное прогнозное значение зависимой переменной с вероятностью 95%. Он имеет вид:

\begin{equation*} \left(\widehat y_{n+1}-\delta {\ast}t_{n-2}^{\alpha },\widehat y_{n+1}+\delta {\ast}t_{n-2}^{\alpha }\right.) \end{equation*}

Обратите внимание, что величина стандартной ошибки прогноза зависит от соотношения \(x_{n+1}\) и \(\overline x\). Если \(x_{n+1}=\overline x\), то последняя дробь в этой большой формуле окажется равной нулю, и стандартная ошибка прогноза будет минимальной. Чем сильнее \(x_{n+1}\) отличается от \(\overline x\), тем больше будет эта дробь. Таким образом, чем меньше наблюдение, для которого вы строите прогноз, похоже на вашу исходную выборку, тем менее точным этот прогноз окажется.

Пример 2.6. Построение прогноза

Рассматривается классическая линейная модель парной регрессии \(y_i=\beta _1+\beta _2{\ast}x_i+\varepsilon _i.\) Имеется следующая информация о 10 наблюдениях анализируемых переменных:

\begin{equation*} \sum _{i=1}^{10}x_i=20,\sum _{i=1}^{10}x_i^2=50,\sum _{i=1}^{10}y_i=8,\sum _{i=1}^{10}y_i^2=26, \end{equation*}

\begin{equation*} \sum _{i=1}^{10}x_i{\ast}y_i=10 \end{equation*}

Для одиннадцатого наблюдения дано \(x_{11}=5\). Предполагая, что это наблюдение удовлетворяет исходной модели, вычислите наилучший линейный несмещенный прогноз \(y_{11}\) и оцените его точность, построив для него 95-процентный доверительный интервал.

Решение:

\begin{equation*} \widehat {\beta _2}=\frac{\overline{\mathit{xy}}-\overline x{\ast}\overline y}{\overline{x^2}-\overline x^2}=-0,6 \end{equation*}

\begin{equation*} \widehat {\beta _1}=\overline y-\widehat {\beta _2}{\ast}\overline x=2 \end{equation*}

Прогноз \(\widehat y_{11}=\widehat {\beta _1}+\widehat {\beta _2}{\ast}x_{11}=2-0,6{\ast}5=-1\).

Сумма квадратов остатков равна:

\begin{equation*} \sum _{i=1}^{10}e_i^2=\sum _{i=1}^{10}e_i{\ast}\left(y_i-\widehat {\beta _1}-\widehat {\beta _2}{\ast}x_i\right)= \end{equation*}

\begin{equation*} \sum _{i=1}^{10}e_iy_i-\widehat {\beta _1}\sum _{i=1}^{10}e_i-\widehat {\beta _2}\sum _{i=1}^{10}e_ix_i=\sum _{i=1}^{10}e_iy_i-\widehat {\beta _1}{\ast}0-\widehat {\beta _2}{\ast}0 \end{equation*}

Последнее равенство верно в силу свойств остатков регрессии. Таким образом:

\begin{equation*} \sum _{i=1}^{10}e_i^2=\sum _{i=1}^{10}e_iy_i=\sum _{i=1}^{10}\left(y_i-\widehat {\beta _1}-\widehat {\beta _2}{\ast}x_i\right)y_i= \end{equation*}

\begin{equation*} \sum _{i=1}^{10}y_i^2-\widehat {\beta _1}\sum _{i=1}^{10}y_i-\widehat {\beta _2}{\ast}\sum _{i=1}^{10}x_iy_i=26-2{\ast}8+0,6{\ast}10=16 \end{equation*}

\begin{equation*} \delta =\sqrt{s^2{\ast}\left(1+\frac 1 n+\frac{\left(x_{11}-\overline x\right)^2}{\sum \left(x_i-\overline x\right)^2}\right)}=\end{equation*}

\begin{equation*}=\sqrt{\frac{\sum e_i^2}{n-2}{\ast}\left(1+\frac 1 n+\frac{\left(x_{11}-\overline x\right)^2}{\sum \left(x_i-\overline x\right)^2}\right)}= \end{equation*}

\begin{equation*} =\sqrt{\frac{16}{10-2}{\ast}\left(1+\frac 1{10}+\frac{\left(5-2\right)^2}{10}\right)}=2 \end{equation*}

Теперь можно посчитать доверительный интервал прогноза:

\begin{equation*} \left(\widehat y_{11}-\delta {\ast}t_8,\widehat y_{11}+\delta {\ast}t_8\right) \end{equation*}

\begin{equation*} \left(-1-2{\ast}2,306,-1+2{\ast}2,306\right) \end{equation*}

\begin{equation*} \left(-5,612,3,612\right) \end{equation*}

Заметим, что в этом примере точность прогноза не слишком высока, что объясняется маленьким количеством наблюдений и тем, что \(x_{11}\) довольно далек от среднего по выборке значения переменной \(x\).

Для получения более точного прогноза лучше, конечно, использовать больше данных.

Ответ: \(\widehat y_{11}=-1,\) доверительный интервал: \(\left(-5,612,3,612\right)\)

Понравилась статья? Поделить с друзьями:
  • Стандарт исправление ошибок прошлых лет
  • Сталкер тень чернобыля выдает ошибку xray engine
  • Стандартная ошибка асимметрии это
  • Стандартная ошибка прогноза показывает
  • Стандартная ошибка среднего калькулятор