Ошибки измерения эконометрика

Ошибки измерения показателей, принятых в качестве аргументов, должны быть ничтожно малы по сравнению с ошибками измерения зависимой переменной.  [c.66]

Теперь, пользуясь независимостью и аддитивностью v, q, м1а, включим ошибку измерения зависимой переменной.  [c.79]

До сих пор мы безоговорочно предполагали, что переменные X измерены без ошибок и что единственной допустимой формой ошибок в рассматриваемом соотношении могут быть возмущения и. Последнее было продиктовано стремлением учесть воздействие различных объясняющих переменных, не включенных явно в это соотношение. Можно, конечно, ввести составляющую, которая отражает ошибку измерения зависимой переменной Y, и не нарушить все полученные ранее результаты. Выясним теперь, к чему приведет предположение о наличии ошибки измерения у переменных X. Мы предполагаем, что р есть вектор коэффициентов, полученных для точно измеренных значений переменных X. Что произойдет, если воспользоваться нашей техникой наименьших квадратов в применении к имеющимся в наличии реальным измерениям переменных X и переменной У Ответ на этот вопрос таков оценки, полученные обыкновенным методом наименьших квадратов, будут не только смещенными, но и несостоятельными. Это можно продемонстрировать следующим образом.  [c.280]

Ошибки в измерениях зависимой переменной. Предположим, что истинной является модель (8.1), но вектор у измеряется с ошибкой, т. е. наблюдается вектор у — у + и, где и — ошибки, имеющие нулевое математическое ожидание и не зависящие от е и X. Тогда нетрудно понять, что построение МНК-оценок на основании у эквивалентно регрессии  [c.214]

Стохастические связи между различными явлениями и их признаками в отличие от функциональных, жестко детерминированных, характеризуются тем, что результативный признак (зависимая переменная) испытывает влияние не только рассматриваемых независимых факторов, но и подвергается влиянию ряда случайных (неконтролируемых) факторов. Причем полный перечень факторов не известен, так же как и точный механизм их воздействия на результативный признак. В этих условиях значения зависимой переменной тоже не могут быть измерены точно. Их можно определить с определенной вероятностью, поскольку они подвержены случайному разбросу и содержат неизбежные ошибки измерения переменных.  [c.69]

Возникновение понятия статистической связи обуславливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п.  [c.51]

В дальнейшем используются следующие обозначения Xt, xt, Zt, ztr q, v — зависимая и независимая переменные при отсутствии и наличии ошибок измерения, ошибки измерения в этих переменных и 1 ы<2> d2> — остаточные возмущения и белый шум в уравнениях для временных рядов и для временных рядов перекрестных выборок М, s2, л(1>, я(2), 2W, 2(2) — математическое ожидание, выборочная дисперсия, остаточные ковариационные матрицы и ковариационные матрицы коэффициентов в уравнениях для временных рядов и временных рядов перекрестных выборок N(0, s2), гг, Т, п, К, Е, i, ML — обозначение нормального распределения, коэффициент остаточной марковской автокорреляции первого порядка, количество наблюдений временного ряда и выборочного обследования, число независимых переменных, единичная матрица и единичный вектор, обозначение оценки наибольшего правдоподобия.  [c.73]

Если рассмотреть зависимость одной из характеристик системы T V(X/), как функцию только одной переменной х/, (рис. 7.2), то при фиксированных значениях xt будем получать различные значения тЦх,). Разброс значений т в данном случае определяется не только ошибками измерения, а главным образом влиянием помех z,. Сложность задачи оптимального управления характеризуется не только сложностью самой зависимости Т У( Ь 2> > )> но и влиянием z,,  [c.243]

Изучение зависимостей экономических переменных начнем со случая двух переменных (обозначим их х и у). Этот случай наиболее прост и может быть рассмотрен графически. Предположим, что имеются ряды значений переменных, соответствующие им точки нанесены на график и соединены линией. Если это реальные статистические данные, то мы никогда не получим простую линию — линейную, квадратичную, экспоненциальную и т.д. Всегда будут присутствовать отклонения зависимой переменной, вызванные ошибками измерения, влиянием неучтенных величин или случайных факторов. Но если мы не получили, например, точную прямую линию, это еще не значит, что в основе рассматриваемой зависимости лежит нелинейная функция. Возможно, зависимость переменных линейна, и лишь случайные факторы приводят к некоторым отклонениям от нее. То же самое можно сказать и про любой другой вид функции. Связь переменных, на которую накладываются воздействия случайных факторов, называется статистической связью. Наличие такой связи заключается в том, что изменение одной переменной приводят к изменению математического ожидания другой пе-  [c.293]

Понятно, что можно рассматривать общий случай, когда есть ошибки в измерениях независимых и зависимых переменных. Ясно, что, как и в предыдущем случае, применение метода наименьших квадратов будет приводить к смещенным и несостоятельным оценкам.  [c.215]

Регрессионная зависимость случайного результирующего показателя г) от неслучайных предсказывающих переменных X (схема В). Природа такой связи может носить двойственный характер а) регистрация результирующего показателя г неизбежно связана с некоторыми случайными ошибками измерения е, в то время как предикторные (объясняющие) переменные X = (х(1) лс(2),. .., х(р ) измеряются без ошибок (или величины этих ошибок пренебрежимо малы по сравнению с со-ответствукмвдми ошибками измерения результирующего показателя) б) значения результирующего показателя г) зависят не только от соответствующих значений X, но и еще от  [c.35]

Отрицательные знаки коэффициентов регрессии соответствуют здесь теоретическим представлениям. Коэффициент при переменной GNPзначительно меньше по абсолютной величине, чем коэффициент при RSR, но это не значит, что данная величина воздействует на зависимую переменную слабее. Здесь все определяется единицами измерения, и если ВНП измерять не в миллиардах, а в триллионах долларов, то соответствующий коэффициент регрессии будет равен не 0,017, а 17, при стандартной ошибке 4.  [c.336]

В предыдущих разделах предполагалось, что независимые переменные (матрица X) являются неслучайными. Ясно, что такое условие выполнено не всегда, например, во многих ситуациях при измерении независимых переменных могут возникать случайные ошибки. Кроме того, при анализе временных рядов значение исследуемой величины в момент t может зависеть от ее значений в предыдущие моменты времени, т. е. в некоторых уравнениях эти значения выступают в качестве независимых, а в других — в качестве зависимых переменных (модели с лагированными переменными). Поэтому возникает необходимость рассматривать модели со стохастическими регрессорами.  [c.149]

На практике редко встречается ситуация, когда матрица М вырождена. Более распространен случай, когда она плохо обусловлена (между переменными Z существуют зависимости близкие к линейным). В этом случае имеет место мультиколлинеарность факторов. Поскольку гипотеза 2 в части отсутствия ошибок измерения, как правило, нарушается, получаемые (при мультиколлинеарности) оценки в значительной степени обусловлены этими ошибками измерения. В таком случае (если связь существует), обычно, факторы по отдельности оказываются незначимыми по t-критерию, а все вместе существенными по F-критерию. Поэтому в регрессию стараются не вводить факторы сильно скоррелированные с остальными.  [c.23]

Третьим источником ошибок являются ошибки наблюдения и мерения. Точная линейная зависимость Z = а + (ЗХ переменно X может оказаться скрытой в результате того, что вместо H TI значения Z мы будем наблюдать величину Y = Z + и, где и — о измерения. Тогда мы имеем  [c.20]

Пусть переменные \(y_{i}\) и \(x_{i}^{*}\) связаны точным соотношением

\(y_{i}\ = \beta_{1} + \beta_{2}*x_{i}^{*}\)

Однако вместо точных значений регрессора мы наблюдаем измеренные с ошибкой значения: \(x_{i} = x_{i}^{*} + \varepsilon_{i}\), \(\text{cov}\left( x_{i}^{*},\varepsilon_{i} \right) = 0\).

Мы оцениваем методом наименьших квадратов уравнение

\(y_{i}\ = \beta_{1} + \beta_{2}*x_{i} + u_{i}.\)

Покажем, что и в этом случае МНК-оценка \(\widehat{\beta_{2}}\) будет несостоятельной.

Так как \(y_{i}\ = \beta_{1} + \beta_{2}*\left( x_{i} — \varepsilon_{i} \right) = \beta_{1} + \beta_{2}*x_{i} — \beta_{2}*\varepsilon_{i},\) то

\(u_{i} = — \beta_{2}*\varepsilon_{i}.\)

\(\widehat{\beta_{2}}\text{~~}\overset{\text{~~p~~}}{\rightarrow}\ \beta_{2} + \frac{\text{cov}\left( x_{i},\ u_{i} \right)}{\text{var}\left( x_{i} \right)} = \beta_{2} + \frac{\text{cov}\left( x_{i}^{*} + \varepsilon_{i},\ \ — \beta_{2}*\varepsilon_{i} \right)}{\text{var}\left( x_{i} \right)} =\)

\(= \beta_{2} — \beta_{2}\frac{\text{cov}\left( x_{i}^{*},\ \varepsilon_{i} \right) + cov\left( \varepsilon_{i},\ \varepsilon_{i} \right)}{\text{var}\left( x_{i} \right)} = \beta_{2} — \beta_{2}\frac{\text{var}\left( \varepsilon_{i}\ \right)}{\text{var}\left( x_{i} \right)} =\)

\(= \beta_{2} — \beta_{2}\frac{\text{var}\left( \varepsilon_{i}\ \right)}{\text{var}\left( \varepsilon_{i}\ \right) + var\left( x_{i}^{*} \right)} = \frac{\text{var}\left( x_{i}^{*} \right)}{\text{var}\left( \varepsilon_{i}\ \right) + var\left( x_{i}^{*} \right)}*\beta_{2}\)

Величина \(\left| \frac{\text{var}\left( x_{i}^{*} \right)}{\text{var}\left( \varepsilon_{i}\ \right) + \text{var}\left( x_{i}^{*} \right)} \right| < 1\), поэтому независимо от знака \(\beta_{2}\) эта оценка несостоятельна и смещена к нулю.

Можно привести много примеров ситуаций, когда в эконометрическом исследовании приходится мириться с ошибками измерения. Скажем, если вашим регрессором является уровень безработицы или валовой внутренний продукт, вы неизбежно столкнетесь с этой проблемой, так как статистические службы не могут измерить указанные показатели идеально точно.

Исследования, опирающиеся на индивидуальные данные, также иногда связаны с ошибками измерений. Типичная ситуация тут — использование данных, основанных на опросах. Если регрессором в вашей модели является возраст индивида, информация о котором собрана в ходе опроса (например, в процессе переписи населения), то, скорее всего, в измерениях будут содержаться неточности: демографам хорошо известно, что многие индивиды склонны при ответах на вопросы о возрасте округлять его до чисел, кратных пяти или десяти годам. Похожий эффект возникает и в случае ответов на вопросы о доходе.

Конечно, в условиях ошибок измерений всегда можно посоветовать исследователю найти данные поточнее. Это хороший совет. Однако, к сожалению, на практике последовать ему бывает трудно, поэтому приходится использовать альтернативный путь.

Как мы выясним в главе 8, проблема ошибок измерения также может быть решена при помощи инструментальных переменных.

Иногда, однако, эту проблему просто игнорируют. Мотивация тут такая: если вам интересна не количественная оценка силы влияния переменной x на переменную y, а просто сам факт наличия или отсутствия этого влияния, то, получив статистически значимый коэффициент при регрессоре, вы можете не предпринимать дальнейших корректировок. Действительно, мы точно знаем, что ошибки измерения сдвигают оценку коэффициента к нулю. Поэтому, если коэффициент оказался значимым даже в условиях ошибок измерения, то после их устранения он тем более должен быть значим.

Теория ошибок.

Ошибки измерения.

Измерение объектов не могут быть
произведены абсолютно точно, и каждое
конкретное измерение даёт лишь
приближённое значение величины явления,
истинное значение которой неизвестно.
Ошибки измерения представляют собой
разность между результатом измерения
величины явления и истинным его значением.
E– ошибка Х – результат
измерения, А – истинное значение (Е=Х-А).

Рассмотрим такие измерения, производимые
одним наблюдателем, одним и тем же
инструментом в одинаковых условиях.
Это так называемое равноточные измерения.
Различают два вида ошибок измерения:

1. Систематические – такие, которые при
данных условиях проведения измерения
имеют определённое значение, например
ошибка измерительного прибора.

2. Случайные ошибки 0 такие, которые
являются результатом взаимодействия
большого числа незначительных в
отдельности факторов и имеют в каждом
отдельном случае различные значения.

Задача статистики предусмотреть
возможность возникновения систематических
ошибок и добиться либо их ликвидации,
либо сведения к минимуму. Случайные
ошибки измерения обладают рядом свойств:
при большом числе измерений – крупные
ошибки встречаются реже мелких, и число
положительных оценок примерно равно
числу отрицательных.

Если ошибки получаются весьма малыми
по сравнению с величиной явления, то
ими или пренебрегают, или учитывают
только наибольшую возможную ошибку,
чтобы обезопасить себя от влияния
случайной неточности.

В теории ошибок изучаются такие ошибки,
которые вялясь с одной стороны ошибками
случайного характера по своему абсолютному
значению настолько велики, что ими
пренебречь нельзя, а с другой стороны
для низ существует закон, позволяющий
установить зависимость между величиной
ошибки и вероятностью её появления.
Закон случайных ошибок Гаусса состоит
в том, что случайные ошибки подчиняются
закону нормального распределения.

Точность одного измерения и средняя
ошибка сводного результата измерения.

Принимая за действительное значение
измеряемой величины при равноточном
измерении среднюю арифметическую из
всех результатов измерений можно
охарактеризовать точность одного
измерения из абсолютных величин значений
ошибок.

Еср.=∑|x-xср.|
/n– точность одного
измерения,X– измерение,
Хср. — измерение

Eср (от хср.) =Eср.
/
среднее

δ =

А за меру точность соответствие принятой
средней арифметической истинному
значению измеряемой величины Aпринимают среднюю ошибку сводного
результата измерения.

Квадратическая точность измерения и
средняя квадратическая ошибка.

Если в качестве меры точности одного
измерения принять несреднюю арифметическую
из абсолютных средних значений ошибок,
а среднюю квадратическую из ошибок
измерений, так называемую квадратическую
точность измерения (δ), то средняя
квадратическая ошибка найденной средней
арифметической из ошибок вычисления
вычисляется по формуле

δср(хср)=δ/

Между средней квадратической ошибкой
и средней ошибкой и средней ошибкой
сводного результата измерения существует
следующая связь.

δср(хср)/Eср.(хср)=~1,25
(1,250-1,259).

Если находится в этом интервале, То
случайные ошибки подчиняются закону
нормального распределения.

Вероятная ошибка.

За меру точности одного измерения иногда
принимают вероятную ошибку

r(xср.)=2/3δср(хср)

Наиболее вероятные границы сводных
результатов измерения.

В качестве значения измеряемой величины
применяется среднее арифметическое
всех измерений (если они равноточны).
Использование отклонений результатов
измерений от средней из них (X-Xср.),
называемых в теории ошибок кажущимися
ошибками позволяет произвести оценку
точности соответствия средней
арифметической неизвестному истинному
значению измеряемой величины А. Для
этой цели используют утроенную среднюю
квадратическую среднюю квадратическую
ошибку сводного результата измерения.
Найденные границы соблюдаются с большой
вероятностью (99,7)

A=Xср +-
3δср(хср)

Задача: произведено 10 измерений.
Определить:

1) точность одного измерения

2) среднюю ошибку сводного результата
измерения

3) квадратическую точность измерения

4) среднюю квадратическую ошибку

5) связь между средней квадратической
ошибкой и средней ошибкой сводного
результата измерений.

6) вероятную ошибку

7) вероятные границы сводных результатов
измерений.

140, 141, 142, 138,, 143, 139, 141, 142, 144, 145

п/п

Х

Х-Xср

|x-xср|

(x-xср)^2

1

138

-3,5

3,5

12,25

2

139

-2,5

2,5

6,25

3

140

-1,5

1,5

2,25

4

141

-0,5

0,5

0,25

5

142

0,5

0,5

0,25

6

143

1,5

1,5

2,25

7

144

2,5

2,5

6,25

8

145

3,5

3,5

12,25

9

142

0,5

0,5

0,25

10

141

-0,5

0,5

0,25

Итого

141,5

17

42,5

Еср=∑|x-xср| / n – точность одного измерения,
X – измерение, Хср — измерение

Eср (хср) = Eср. /
– среднее

δ =

1. Хср.=141,5

Е=

Eср=17/10=1,7

2.Eср(хср)=1,7 / (10)^1/2=0,538

3. δ=
=2,061

4. δср(хср)=δ /= 2,061/= 0,652

5. δср(хср)/Eср.(хср)=~1,25 (1,250-1,259).

0,652/0,537=1,214 (не удовлетворяет) – не
подчиняется закону нормального
распределения

6. r(xср.)=2/3δср(хср)=0,435 – вероятная
ошибка

7. 135,137 < A< 147, 683

Но т.к. 5 пункт не удовлетворяет, то
измерения не верны, и их нужно менять.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Когда мы подгоняем регрессионную модель к набору данных, нас часто интересует, насколько хорошо регрессионная модель «подходит» к набору данных. Две метрики, обычно используемые для измерения согласия, включают R -квадрат (R2) и стандартную ошибку регрессии , часто обозначаемую как S.

В этом руководстве объясняется, как интерпретировать стандартную ошибку регрессии (S), а также почему она может предоставить более полезную информацию, чем R 2 .

Стандартная ошибка по сравнению с R-квадратом в регрессии

Предположим, у нас есть простой набор данных, который показывает, сколько часов 12 студентов занимались в день в течение месяца, предшествующего важному экзамену, а также их баллы за экзамен:

Пример интерпретации стандартной ошибки регрессии

Если мы подгоним простую модель линейной регрессии к этому набору данных в Excel, мы получим следующий результат:

Вывод регрессии в Excel

R-квадрат — это доля дисперсии переменной отклика, которая может быть объяснена предикторной переменной. При этом 65,76% дисперсии экзаменационных баллов можно объяснить количеством часов, потраченных на учебу.

Стандартная ошибка регрессии — это среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии. В этом случае наблюдаемые значения отклоняются от линии регрессии в среднем на 4,89 единицы.

Если мы нанесем фактические точки данных вместе с линией регрессии, мы сможем увидеть это более четко:

Обратите внимание, что некоторые наблюдения попадают очень близко к линии регрессии, в то время как другие не так близки. Но в среднем наблюдаемые значения отклоняются от линии регрессии на 4,19 единицы .

Стандартная ошибка регрессии особенно полезна, поскольку ее можно использовать для оценки точности прогнозов. Примерно 95% наблюдений должны находиться в пределах +/- двух стандартных ошибок регрессии, что является быстрым приближением к 95% интервалу прогнозирования.

Если мы заинтересованы в прогнозировании с использованием модели регрессии, стандартная ошибка регрессии может быть более полезной метрикой, чем R-квадрат, потому что она дает нам представление о том, насколько точными будут наши прогнозы в единицах измерения.

Чтобы проиллюстрировать, почему стандартная ошибка регрессии может быть более полезной метрикой для оценки «соответствия» модели, рассмотрим другой пример набора данных, который показывает, сколько часов 12 студентов занимались в день в течение месяца, предшествующего важному экзамену, а также их экзаменационная оценка:

Обратите внимание, что это точно такой же набор данных, как и раньше, за исключением того, что все значения s сокращены вдвое.Таким образом, студенты из этого набора данных учились ровно в два раза дольше, чем студенты из предыдущего набора данных, и получили ровно половину экзаменационного балла.

Если мы подгоним простую модель линейной регрессии к этому набору данных в Excel, мы получим следующий результат:

Вывод регрессии из простой линейной модели в Excel

Обратите внимание, что R-квадрат 65,76% точно такой же, как и в предыдущем примере.

Однако стандартная ошибка регрессии составляет 2,095 , что ровно вдвое меньше стандартной ошибки регрессии в предыдущем примере.

Если мы нанесем фактические точки данных вместе с линией регрессии, мы сможем увидеть это более четко:

Диаграмма рассеяния для простой линейной регрессии

Обратите внимание на то, что наблюдения располагаются гораздо плотнее вокруг линии регрессии. В среднем наблюдаемые значения отклоняются от линии регрессии на 2,095 единицы .

Таким образом, несмотря на то, что обе модели регрессии имеют R-квадрат 65,76% , мы знаем, что вторая модель будет давать более точные прогнозы, поскольку она имеет более низкую стандартную ошибку регрессии.

Преимущества использования стандартной ошибки

Стандартную ошибку регрессии (S) часто бывает полезнее знать, чем R-квадрат модели, потому что она дает нам фактические единицы измерения. Если мы заинтересованы в использовании регрессионной модели для получения прогнозов, S может очень легко сказать нам, достаточно ли точна модель для прогнозирования.

Например, предположим, что мы хотим создать 95-процентный интервал прогнозирования, в котором мы можем прогнозировать результаты экзаменов с точностью до 6 баллов от фактической оценки.

Наша первая модель имеет R-квадрат 65,76%, но это ничего не говорит нам о том, насколько точным будет наш интервал прогнозирования. К счастью, мы также знаем, что у первой модели показатель S равен 4,19. Это означает, что 95-процентный интервал прогнозирования будет иметь ширину примерно 2*4,19 = +/- 8,38 единиц, что слишком велико для нашего интервала прогнозирования.

Наша вторая модель также имеет R-квадрат 65,76%, но опять же это ничего не говорит нам о том, насколько точным будет наш интервал прогнозирования. Однако мы знаем, что вторая модель имеет S 2,095. Это означает, что 95-процентный интервал прогнозирования будет иметь ширину примерно 2*2,095= +/- 4,19 единиц, что меньше 6 и, следовательно, будет достаточно точным для использования для создания интервалов прогнозирования.

Дальнейшее чтение

Введение в простую линейную регрессию
Что такое хорошее значение R-квадрата?

1.2.1. Стандартная ошибка оценки по регрессии

Обозначается как
Sy,xи вычисляется по формуле

Sy,x=.

Стандартная ошибка
оценки по регрессии показывает, на
сколько в среднем мы ошибаемся, оценивая
значение зависимой переменной по
найденному уравнению регрессии при
фиксированном значении независимой
переменной.

Квадрат стандартной
ошибки по регрессии является несмещенной
оценкой дисперсии 2,
т.е.

=

=.

Дисперсия ошибок
характеризует воздействие в модели
(1.1) неучтенных факторов и ошибок.

1.2.2. Оценка
значимости уравнения регрессии

(дисперсионный анализ регрессии)

Для оценки
значимости уравнения регрессии
устанавливают, соответствует ли выбранная
модель анализируемым данным. Для этого
используется дисперсионный анализ
регрессии. Основная его посылка – это
разложение общей суммы квадратов
отклонений
на
составляющие. Известно, что такое
разложение имеет вид

=+.

Второе слагаемое
в правой части разложения – это часть
общей суммы квадратов отклонений,
объясняемая действием случайных и
неучтенных факторов. Первое слагаемое
этого разложения – это часть общей
суммы квадратов отклонений, объясняемая
регрессионной зависимостью. Следовательно,
если регрессионная зависимость между
уихотсутствует, то
общая сумма квадратов отклонений
объясняется действием только случайных
факторов или ошибок, т.е.=.
В случае функциональной зависимости
между уихдействие
случайных факторов и ошибок отсутствует
и тогда=.
Будучи отнесенными к соответствующему
числу степеней свободы, эти суммы
называются средними квадратами отклонений
и служат оценками дисперсиив
разных предположениях.

MSE= ()/(n–2)
– остаточная дисперсия, которая является
оценкойв
предположении отсутствия регрессионной
зависимости, аMSR= ()/1
– аналогичная оценка без этого
предположения. Следовательно, если
регрессионная зависимость отсутствует,
то эти оценки должны быть близкими.
Сравниваются они на основе критерия
Фишера:F=MSR/MSE.

Расчетное значение
этого критерия сравнивается с критическим
значением F(с числом степеней свободы числителя,
равным 1, числом степеней свободы
знаменателя, равнымn–2,
и фиксированным уровнем значимости).
ЕслиF<F, то гипотеза о не значимости
уравнения регрессии не отклоняется, т.
е. признается, что уравнение регрессии
незначимо. В этом случае надо либо
изменить вид зависимости, либо пересмотреть
набор исходных данных.

При компьютерных
расчетах оценка значимости уравнения
регрессии осуществляется на основе
дисперсионного анализа регрессии в
таблицах вида:

Таблица
1.1

Дисперсионный
анализ регрессии

Источник

вариации

Суммы

квадратов

Степени

свободы

Средние

квадраты

F-отношение

p-value

Модель

SSR

1

MSR

MSR/MSE

Уровень

Ошибки

SSE

n–2

MSE

значимости

общая

SST

n–1

Здесь p-value– это вероятность выполнения неравенстваF<F,
т. е. того, что расчетное значениеF-статистики попало в
область принятия гипотезы. Если эта
вероятность мала (меньше),
то нулевая гипотеза отклоняется.

Для множественной регрессии формула несмещенной оценки дисперсии случайной ошибки имеет вид

begin{equation*} widehat {sigma ^2}=S^2=frac 1{n-k}{ast}sum _{i=1}^ne_i^2 end{equation*}

Она почти такая же, как для парной регрессии за тем исключением, что в знаменателе вместо выражения (left(n-2right)) стоит (left(n-kright)). Если извлечь корень из этой величины, то можно получить стандартную ошибку регрессии

begin{equation*} mathit{SEE}=sqrt{S^2}=sqrt{frac 1{n-k}{ast}sum _{i=1}^ne_i^2} end{equation*}

Расчет стандартной ошибки регрессии — это один из способов оценить точность вашей модели в целом. То есть оценить, насколько хорошо она соответствует данным. Чем меньше стандартная ошибка регрессии, тем лучше ваша модель соответствует доступным вам наблюдениям.

Следующая характеристика качества подгонки — это коэффициент детерминации (R^2).

Для множественной регрессии с константой так же, как и для парной, верно, что общая сумма квадратов может быть представлена как сумма квадратов остатков и объясненная сумма квадратов:

begin{equation*} sum _{i=1}^nleft(y_i-overline yright)^2=sum _{i=1}^ne_i^2+sum _{i=1}^nleft(widehat y_i-overline yright)^2 end{equation*}

Поэтому и (R^2) может быть рассчитан в точности таким же образом, как и для модели парной регрессии:

begin{equation*} R^2=1-frac{sum _{i=1}^ne_i^2}{sum _{i=1}^nleft(y_i-overline yright)^2}=frac{sum _{i=1}^nleft(widehat y_i-overline yright)^2}{sum _{i=1}^nleft(y_i-overline yright)^2}=frac{widehat {mathit{Var}}left(widehat yright)}{widehat {mathit{Var}}left(yright)} end{equation*}

И точно так же, как и в случае парной регрессии, он будет лежать между нулем и единицей. Если ваша модель хорошо соответствует данным, то (R^2) будет близок к единице, если нет, то к нулю. Ещё раз подчеркнем, что условие (sum _{i=1}^nleft(y_i-overline yright)^2=sum _{i=1}^ne_i^2+sum _{i=1}^nleft(widehat y_i-overline yright)^2) выполняется только тогда, когда в модели есть константа. Если же ее нет, то указанное равенство, вообще говоря, неверно, и (R^2) не обязан лежать между нулем и единицей, и интерпретировать стандартным образом его нельзя.

Некоторые эконометристы старой школы придают важное значение величине коэффициента (R^2). Действительно, если он близок к единице, то это, как правило, приятная новость. Однако не стоит переоценивать эту характеристику качества модели потому, что у коэффициента (R^2) есть существенные ограничения:

  1. Высокий (R^2) характеризует наличие множественной корреляции между регрессорами и зависимой переменной, но ничего не говорит о наличии или отсутствии причинно-следственной связи между анализируемыми переменными. Вспомните примеры из первой главы, где мы обсуждали, что высокая корреляция не гарантирует причинно-следственной связи.
  2. (R^2) не может быть использован для принятия решения о том, стоит ли добавлять в модель новые переменные или нет. Дело в том, что, когда вы добавляете новые переменные в ваше уравнение, качество подгонки данных не может стать хуже, следовательно, и сумма квадратов остатков не может увеличиться. В теории она может остаться неизменной, но на практике она всегда будет уменьшаться. А в этом случае, как видно из расчетной формулы, (R^2) будет увеличиваться. Получается, что какие бы дурацкие новые переменные вы ни добавляли в модель, коэффициент (R^2) будет увеличиваться (или, в крайнем случае, оставаться неизменным).

Последний из указанных недостатков легко можно преодолеть. Для этого есть усовершенствованная версия (R^2), которую называют скорректированным (или нормированным) коэффициентом (R^2) ( (R^2) adjusted):

begin{equation*} R_{mathit{adj}}^2=R^2-frac{k-1}{n-k}{ast}left(1-R^2right) end{equation*}

(R_{mathit{adj}}^2) меньше, чем обычный (R^2), на величину (frac{k-1}{n-k}{ast}left(1-R^2right)), которая представляет собой штраф за добавление избыточных переменных. Обратите внимание, что при прочих равных этот штраф растет по мере увеличения параметра (k), характеризующего число коэффициентов в вашей модели. Если вы будете добавлять в модель много регрессоров, которые не вносят существенного вклада в объяснение зависимой переменной, то (R^2_{mathit{adj}}) будет снижаться.

Поэтому, если вы хотите сравнить межу собой модели с разным числом объясняющих переменных, то лучше использовать (R^2_{mathit{adj}}), чем обычный (R^2). А ещё лучше обращать внимание не только на этот коэффициент, но и на прочие характеристики адекватности вашей модели, которые мы обсудим в этой книге.

Чтобы понять, откуда берется формула для скорректированного R-квадрата, запишем обычный R-квадрат следующим образом:

begin{equation*} R^2=1-frac{sum _{i=1}^ne_i^2}{sum _{i=1}^nleft(y_i-overline yright)^2}=1-frac{frac{sum _{i=1}^ne_i^2} n}{frac{sum _{i=1}^nleft(y_i-overline yright)^2} n}. end{equation*}

В числителе дроби стоит выборочная дисперсия остатков, а в знаменателе — выборочная дисперсия зависимой переменной. Если и ту, и другую дисперсии заменить их несмещенными аналогами, то получим следующее выражение:

begin{equation*} 1-frac{S^2}{frac{sum _{i=1}^nleft(y_i-overline yright)^2}{n-1}}=1-frac{frac{sum _{i=1}^ne_i^2}{n-k}}{frac{sum _{i=1}^nleft(y_i-overline yright)^2}{n-1}}. end{equation*}

Легко проверить, что это и есть скорректированный R-квадрат:

begin{equation*} 1-frac{frac{sum _{i=1}^ne_i^2}{n-k}}{frac{sum _{i=1}^nleft(y_i-overline yright)^2}{n-1}}=1-frac{n-1}{n-k}frac{sum _{i=1}^ne_i^2}{sum _{i=1}^nleft(y_i-overline yright)^2}=1-frac{n-1}{n-k}left(1-R^2right)= end{equation*}

begin{equation*} R^2-frac{k-1}{n-k}{ast}left(1-R^2right)=R_{mathit{adj}}^2. end{equation*}

Модели регрессии с учетом возможных ошибок в независимых переменных

В статистике, модели ошибок в переменных или модели ошибок измерения — это модели регрессии, которые учитывают ошибки измерения в независимых переменных. Напротив, стандартные регрессионные модели предполагают, что эти регрессоры были точно измерены или наблюдались без ошибок; как таковые, эти модели учитывают только ошибки в зависимых переменных или ответах.

Иллюстрация разбавления регрессии (или смещения ослабления) с помощью диапазона оценок регрессии в ошибках: модели без переменных. Две линии регрессии (красные) ограничивают диапазон возможностей линейной регрессии. Неглубокий наклон получается, когда независимая переменная (или предиктор) находится на абсциссе (ось x). Более крутой наклон получается, когда независимая переменная находится на ординате (ось y). По соглашению с независимой переменной на оси x получается более пологий наклон. Зеленые контрольные линии — это средние значения в пределах произвольных интервалов по каждой оси. Обратите внимание, что более крутые оценки регрессии зеленого и красного цвета более согласуются с меньшими ошибками в переменной оси Y.

В случае, когда некоторые регрессоры были измерены с ошибками, оценка, основанная на стандартном предположении, приводит к несогласованным 61>оценок, что означает, что оценки параметров не стремятся к истинным значениям даже в очень больших выборках. Для простой линейной регрессии эффект заключается в занижении коэффициента, известном как смещение затухания. В нелинейных моделях направление смещения, вероятно, будет более сложным.

Содержание

  • 1 Мотивационный пример
  • 2 Спецификация
    • 2.1 Терминология и предположения
  • 3 Линейный модель
    • 3.1 Простая линейная модель
    • 3.2 Многопараметрическая линейная модель
  • 4 Нелинейные модели
    • 4.1 Методы инструментальных переменных
    • 4.2 Повторные наблюдения
  • 5 Ссылки
  • 6 Дополнительная литература
  • 7 Внешние ссылки

Пример мотивации

Рассмотрим простую модель линейной регрессии вида

yt = α + β xt ∗ + ε t, t = 1,…, T, {\ displaystyle y_ { t} = \ альфа + \ бета x_ {t} ^ {*} + \ varepsilon _ {t} \,, \ quad t = 1, \ ldots, T,}y_{t} = \alpha + \beta x_{t}^{*} + \varepsilon_t\, \quad t=1,\ldots,T,

где xt ∗ {\ displaystyle x_ {t} ^ {*}}x_{t}^{*}обозначает истинный, но ненаблюдаемый регрессор. Вместо этого мы наблюдаем это значение с ошибкой:

xt = xt ∗ + η t {\ displaystyle x_ {t} = x_ {t} ^ {*} + \ eta _ {t} \,}x_{t} = x_{t}^{*} + \eta_{t}\,

где ошибка измерения η t {\ displaystyle \ eta _ {t}}\eta_{t}считается независимой от истинного значения xt ∗ {\ displaystyle x_ {t} ^ {*}}x_{t}^{*}.

Если yt {\ displaystyle y_ {t}}y_{t}‘s просто регрессируют на xt {\ displaystyle x_ {t}}x_{t}′ s ( см. простая линейная регрессия ), тогда оценка коэффициента наклона будет

β ^ = 1 T ∑ t = 1 T (xt — x ¯) (yt — y ¯) 1 T ∑ t = 1 T (xt — x ¯) 2, {\ displaystyle {\ hat {\ beta}} = {\ frac {{\ tfrac {1} {T}} \ sum _ {t = 1} ^ {T} (x_ {t} — {\ bar {x}}) (y_ {t} — {\ bar {y}})} {{\ tfrac {1} {T}} \ sum _ {t = 1} ^ {T} (x_ {t} — {\ bar {x}}) ^ {2}}} \,,}\hat{\beta} = \frac {\tfrac{1}{T}\sum_{t=1}^T(x_t-\bar{x})(y_t-\bar{y})} {\tfrac{1}{T}\sum_{t =1}^T(x_t-\bar{x})^2}\,

который сходится по мере увеличения размера выборки T {\ displaystyle T}Tбез граница:

β ^ → p Cov ⁡ [xt, yt] Var ⁡ [xt] = β σ x ∗ 2 σ x ∗ 2 + σ η 2 = β 1 + σ η 2 / σ x ∗ 2. {\ displaystyle {\ hat {\ beta}} {\ xrightarrow {p}} {\ frac {\ operatorname {Cov} [\, x_ {t}, y_ {t} \,]} {\ operatorname {Var} [ \, x_ {t} \,]}} = {\ frac {\ beta \ sigma _ {x ^ {*}} ^ {2}} {\ sigma _ {x ^ {*}} ^ {2} + \ sigma _ {\ eta} ^ {2}}} = {\ frac {\ beta} {1+ \ sigma _ {\ eta} ^ {2} / \ sigma _ {x ^ {*}} ^ {2}} } \,.}\hat{\beta} \xrightarrow{p} \frac{\operatorname{Cov}[\,x_t,y_t\,]}{\operatorname{Var}[\,x_t\,]} = \frac{\beta \sigma^2_{x^*}} {\sigma_{x^*}^2 + \sigma_\eta^2} = \frac{\beta} {1 + \sigma_\eta^2/\sigma_{x^*}^2}\,.

Варианты неотрицательны, так что в пределе оценка меньше по величине, чем истинное значение β {\ displaystyle \ beta}\beta , эффект, который статистики называют ослаблением или разбавлением регрессии. Таким образом, «наивная» оценка методом наименьших квадратов несовместима в этой настройке. Однако оценщик является последовательным оценщиком параметра, необходимого для наилучшего линейного предиктора y {\ displaystyle y}yпри x {\ displaystyle x}x: в некоторых приложениях это может быть то, что требуется, а не оценка «истинного» коэффициента регрессии, хотя это предполагает, что дисперсия ошибок при наблюдении x ∗ {\ displaystyle x ^ {*}}x^{*}остается неизменным. Это следует непосредственно из результата, приведенного непосредственно выше, и того факта, что коэффициент регрессии, связывающий yt {\ displaystyle y_ {t}}y_{t}′ s с фактически наблюдаемым xt {\ displaystyle x_ {t}}x_{t}′ s в простой линейной регрессии задается как

β x = Cov ⁡ [xt, yt] Var ⁡ [xt]. {\ displaystyle \ beta _ {x} = {\ frac {\ operatorname {Cov} [\, x_ {t}, y_ {t} \,]} {\ operatorname {Var} [\, x_ {t} \, ]}}.}\beta _{x}={\frac {\operatorname {Cov}[\,x_{t},y_{t}\,]}{\operatorname {Var}[\,x_{t}\,]}}.

Именно этот коэффициент, а не β {\ displaystyle \ beta}\beta , необходим для построения предиктора y {\ displaystyle y}yна основе наблюдаемого x {\ displaystyle x}x, подверженного шуму.

Можно утверждать, что почти все существующие наборы данных содержат ошибки разной природы и величины, так что смещение затухания встречается очень часто (хотя в многомерной регрессии направление смещения неоднозначно). Джерри Хаусман видит в этом железный закон эконометрики: «Величина оценки обычно меньше ожидаемой».

Спецификация

Обычно модели ошибок измерения описываются с использованием подход скрытых переменных. Если y {\ displaystyle y}y— это переменная ответа, а x {\ displaystyle x}x— наблюдаемые значения регрессоров, то предполагается, что существуют некоторые скрытые переменные y ∗ {\ displaystyle y ^ {*}}y^{*}и x ∗ {\ displaystyle x ^ {*}}x^{*}, которые соответствуют «истинному» модели. функциональная связь g (⋅) {\ displaystyle g (\ cdot)}g(\cdot), и такие, что наблюдаемые величины являются их зашумленными наблюдениями:

{y ∗ = g (Икс *, вес | θ), Y = Y * + ε, Икс = Икс * + η, {\ Displaystyle {\ begin {cases} y ^ {*} = g (x ^ {*} \ !, ш \, | \, \ theta), \\ y = y ^ {*} + \ varepsilon, \\ x = x ^ {*} + \ eta, \ end {ases}}{\displaystyle {\begin{cases}y^{*}=g(x^{*}\!,w\,|\,\theta),\\y=y^{*}+\varepsilon,\\x=x^{*}+\eta,\end{cases}}}

где θ { \ displaystyle \ theta}\theta — параметр модели и w {\ displaystyle w}w— те регрессоры, которые считаются безошибочными (для пример, когда линейная регрессия содержит точку пересечения, регрессор, который соответствует константе, безусловно, не имеет «ошибок измерения»). В зависимости от спецификации эти безошибочные регрессоры могут или не могут рассматриваться отдельно; в последнем случае просто предполагается, что соответствующие элементы в матрице дисперсии элементов η {\ displaystyle \ eta}\eta равны нулю.

Переменные y {\ displaystyle y}y, x {\ displaystyle x}x, w {\ displaystyle w}wвсе наблюдаются, что означает, что статистик обладает a набор данных из n {\ displaystyle n}nстатистических единиц {yi, xi, wi} i = 1,…, n {\ displaystyle \ left \ {y_ {i}, x_ {i}, w_ {i} \ right \} _ {i = 1, \ dots, n}}\left\{ y_{i}, x_{i}, w_{i} \right\}_{i = 1, \dots, n}, которые следуют описанному процессу создания данных над; скрытые переменные x ∗ {\ displaystyle x ^ {*}}x^{*}, y ∗ {\ displaystyle y ^ {*}}y^{*}, ε {\ displaystyle \ varepsilon}\varepsilon и η {\ displaystyle \ eta}\eta , однако, не соблюдаются.

Эта спецификация не охватывает все существующие модели ошибок в переменных. Например, в некоторых из них функция g (⋅) {\ displaystyle g (\ cdot)}g(\cdot)может быть непараметрической или полупараметрической. Другие подходы моделируют связь между y ∗ {\ displaystyle y ^ {*}}y^{*}и x ∗ {\ displaystyle x ^ {*}}x^{*}как распределительную. функционала, то есть они предполагают, что y ∗ {\ displaystyle y ^ {*}}y^{*}условно на x ∗ {\ displaystyle x ^ {*}}x^{*}следует определенному (обычно параметрическому) распределению.

Терминология и предположения

  • Наблюдаемая переменная x {\ displaystyle x}xможет называться манифестом, индикатором или прокси-переменной.
  • ненаблюдаемой переменной x ∗ {\ displaystyle x ^ {*}}x^{*}можно назвать скрытой или истинной переменной. Его можно рассматривать либо как неизвестную константу (в этом случае модель называется функциональной моделью), либо как случайную величину (соответственно структурную модель).
  • Связь между погрешностью измерения η {\ displaystyle \ eta}\eta и скрытую переменную x ∗ {\ displaystyle x ^ {*}}x^{*}можно моделировать разными способами:
    • Классический ошибки: η ⊥ x ∗ {\ displaystyle \ eta \ perp x ^ {*}}\eta \perp x^*ошибки не зависят от скрытой переменной. Это наиболее распространенное допущение, оно подразумевает, что ошибки вносятся измерительным устройством и их величина не зависит от измеряемого значения.
    • Независимость от среднего: E ⁡ [η | x ∗] = 0, {\ displaystyle \ operatorname {E} [\ eta | x ^ {*}] \, = \, 0,}\operatorname{E}[\eta|x^*]\,=\,0,ошибки равны нулю в среднем для каждого значения скрытого регрессор. Это менее ограничительное предположение, чем классическое, поскольку оно допускает наличие гетероскедастичности или других эффектов в ошибках измерения.
    • Ошибки Берксона : η ⊥ x, { \ displaystyle \ eta \, \ perp \, x,}\eta\,\perp\,x,ошибки не зависят от наблюдаемого регрессора x. Это предположение имеет очень ограниченную применимость. Одним из примеров являются ошибки округления: например, если возраст человека * является непрерывной случайной величиной, тогда как наблюдаемый возраст усекается до следующего наименьшего целого числа, тогда ошибка усечения приблизительно не зависит от наблюдаемого возраста.. Другая возможность связана с экспериментом с фиксированным планом: например, если ученый решает провести измерение в определенный заранее определенный момент времени x {\ displaystyle x}x, скажем, при x = 10 s {\ displaystyle x = 10s}x = 10 s, тогда реальное измерение может произойти при некотором другом значении x ∗ {\ displaystyle x ^ {*}}x^{*}(например, из-за к ее конечному времени реакции), и такая ошибка измерения обычно не зависит от «наблюдаемого» значения регрессора.
    • Ошибки неправильной классификации: особый случай, используемый для фиктивных регрессоров. Если x ∗ {\ displaystyle x ^ {*}}x^{*}является индикатором определенного события или состояния (например, лицо мужского / женского пола, какое-либо лечение предоставлено / нет и т. Д.), то ошибка измерения в таком регрессоре будет соответствовать неверной классификации, аналогичной ошибкам типа I и типа II при статистическом тестировании. В этом случае ошибка η {\ displaystyle \ eta}\eta может принимать только 3 возможных значения, а ее распределение зависит от x ∗ {\ displaystyle x ^ {*}}x^{*}моделируется двумя параметрами: α = Pr ⁡ [η = — 1 | x ∗ = 1] {\ displaystyle \ alpha = \ operatorname {Pr} [\ eta = -1 | x ^ {*} = 1]}\alpha = \operatorname{Pr}[\eta = -1 | x^* = 1]и β = Pr ⁡ [η = 1 | x ∗ = 0] {\ displaystyle \ beta = \ operatorname {Pr} [\ eta = 1 | x ^ {*} = 0]}\beta =\operatorname{Pr}[\eta = 1 | x^*=0]. Необходимым условием идентификации является то, что α + β < 1 {\displaystyle \alpha +\beta <1}\alpha + \beta <1, то есть ошибочная классификация не должна происходить «слишком часто». (Эта идея может быть обобщена на дискретные переменные с более чем двумя возможными значениями.)

Линейная модель

Линейные модели ошибок в переменных были изучены первыми, вероятно потому, что были линейные модели так широко используются, и они проще нелинейных. В отличие от стандартной регрессии по методу наименьших квадратов (OLS), расширение ошибок в регрессии переменных (EiV) с простого случая на многомерный не так просто.

Простая линейная модель

Простая линейная модель ошибок в переменных уже была представлена ​​в разделе «мотивация»:

{yt = α + β xt ∗ + ε t, xt знак равно xt * + η t, {\ displaystyle {\ begin {cases} y_ {t} = \ alpha + \ beta x_ {t} ^ {*} + \ varepsilon _ {t}, \\ x_ {t} = x_ {t} ^ {*} + \ eta _ {t}, \ end {cases}}}{\begin{cases}y_{t}=\alpha +\beta x_{t}^{*}+\ varepsilon _{t},\\x_{t}=x_{t}^{*}+\eta _{t},\end{cases}}

где все переменные скалярны. Здесь α и β представляют собой интересующие параметры, тогда как σ ε и σ η — стандартные отклонения членов ошибки — являются мешающими параметрами. «Истинный» регрессор x * рассматривается как случайная величина (структурная модель), не зависящая от ошибки измерения η (классическое предположение).

Эта модель идентифицируема в двух случаях: (1) либо скрытый регрессор x * не нормально распределен, (2) или x * имеет нормальное распределение, но ни ε t, ни η t не делятся на нормальное распределение. То есть параметры α, β можно последовательно оценить на основе набора данных (xt, yt) t = 1 T {\ displaystyle \ scriptstyle (x_ {t}, \, y_ {t}) _ {t = 1} ^ {T}}\scriptstyle (x_{t},\,y_{t})_{{t=1}}^{T}без какой-либо дополнительной информации, при условии, что скрытый регрессор не является гауссовским.

Перед тем, как этот результат идентифицируемости был установлен, статистики пытались применить метод максимального правдоподобия, предполагая, что все переменные являются нормальными, а затем пришли к выводу, что модель не идентифицирована. Предлагаемое решение состояло в том, чтобы предположить, что некоторые параметры модели известны или могут быть оценены из внешнего источника. К таким методам оценки относятся

  • регрессия Деминга — предполагается, что отношение δ = σ² ε / σ² η известно. Это может быть подходящим, например, когда ошибки в y и x вызваны измерениями, и точность измерительных устройств или процедур известна. Случай, когда δ = 1, также известен как ортогональная регрессия.
  • Регрессия с известным коэффициентом надежности λ = σ² ∗ / (σ² η + σ² ∗), где σ² ∗ — дисперсия скрытого регрессора. Такой подход может быть применим, например, когда доступны повторяющиеся измерения одного и того же устройства, или когда коэффициент надежности известен из независимого исследования. В этом случае согласованная оценка наклона равна оценке методом наименьших квадратов, деленной на λ.
  • Регрессия с известным σ² η может произойти, если источник ошибок в x известен и их дисперсию можно рассчитать. Это может включать ошибки округления или ошибки, вносимые измерительным устройством. Когда известно σ² η, мы можем вычислить коэффициент надежности как λ = (σ² x — σ² η) / σ² x и уменьшить проблема с предыдущим случаем.

Более новые методы оценки, которые не предполагают знания некоторых параметров модели, включают

  • Метод моментов — оценку GMM на основе третьего — ( или соединение более высокого порядка кумулянтов наблюдаемых переменных. Коэффициент наклона можно оценить по формуле
    β ^ = K ^ (n 1, n 2 + 1) K ^ (n 1 + 1, n 2), n 1, n 2>0, {\ displaystyle {\ hat {\ beta}} = {\ frac {{\ hat {K}} (n_ {1}, n_ {2} +1)} {{\ hat {K}} (n_ {1} + 1, n_ {2 })}}, \ quad n_ {1}, n_ {2}>0,}{\hat \beta }={\frac {{\hat {K}}(n_{1},n_{2}+1)}{{\hat {K}}(n_{1}+1,n_{2})}},\quad n_{1},n_{2}>0,

    где (n 1,n2) такие, что K (n 1 + 1, n 2) — совместный кумулянт из (x, y) — не равен нулю. В случае, когда третий центральный момент скрытого регрессора x * не равен нулю, формула сводится к

    β ^ = 1 T ∑ T = 1 T (xt — x ¯) (yt — y ¯) 2 1 T ∑ t = 1 T (xt — x ¯) 2 (yt — y ¯). {\ displaystyle {\ hat {\ beta}} = {\ frac {{\ tfrac {1} {T}} \ sum _ {t = 1} ^ {T} (x_ {t} — {\ bar {x}}) (y_ { t} — {\ bar {y}}) ^ {2}} {{\ tfrac {1} {T}} \ sum _ {t = 1} ^ {T} (x_ {t} — {\ bar {x }}) ^ {2} (y_ {t} — {\ bar {y}})}} \.}{\hat \beta }={\frac {{\tfrac {1}{T}}\sum _{{t=1}}^{T}(x_{t}-{\bar x})(y_{t}-{\bar y})^{2}}{{\tfrac {1}{T}}\sum _{{t=1}}^{T}(x_{t}-{\bar x})^{2}(y_{t}-{\bar y})}}\.
  • Инструментальные переменные — регрессия, требующая некоторых дополнительных переменных данных z, назывались инструменты, были в наличии. Эти переменные не должны быть коррелированы с ошибками в уравнении для зависимой переменной (действительны), и они также должны быть коррелированы (релевантны) с истинными регрессорами x *. Если такие переменные могут быть найдены, то оценка принимает вид
    β ^ = 1 T ∑ t = 1 T (zt — z ¯) (yt — y ¯) 1 T ∑ t = 1 T (zt — z ¯) (xt — x ¯). {\ displaystyle {\ hat {\ beta}} = {\ frac {{\ tfrac {1} {T}} \ sum _ {t = 1} ^ {T} (z_ {t} — {\ bar {z}) }) (y_ {t} — {\ bar {y}})} {{\ tfrac {1} {T}} \ sum _ {t = 1} ^ {T} (z_ {t} — {\ bar { z}}) (x_ {t} — {\ bar {x}})}} \.}{\hat \beta }={\frac {{\tfrac {1}{T}}\sum _{{t=1}}^{T}(z_{t}-{\bar z})(y_{t}-{\bar y})}{{\tfrac {1}{T}}\sum _{{t=1}}^{T}(z_{t}-{\bar z})(x_{t}-{\bar x})}}\.

Многопараметрическая линейная модель

Многопараметрическая модель выглядит точно так же, как простая линейная модель, только на этот раз β, η t, x t и x * t являются векторами k × 1.

{y t = α + β ′ x t ∗ + ε t, x t = x t ∗ + η t. {\ displaystyle {\ begin {case} y_ {t} = \ alpha + \ beta ‘x_ {t} ^ {*} + \ varepsilon _ {t}, \\ x_ {t} = x_ {t} ^ {* } + \ eta _ {t}. \ end {cases}}}{\begin{cases}y_{t}=\alpha +\beta 'x_{t}^{*}+\varepsilon _{t},\\x_{t}=x_{t}^{*}+\eta _{t}.\end{cases}}

В случае, когда (ε t,ηt) совместно нормально, параметр β не идентифицируется тогда и только тогда, когда существует неособое k Блочная матрица × k [a A] (где a — вектор k × 1) такая, что a′x * распределяется нормально и независимо от A′x *. В случае, когда ε t, η t1,…, η tk являются взаимно независимыми, параметр β не идентифицируется тогда и только тогда, когда дополнительно В приведенных выше условиях некоторые ошибки могут быть записаны как сумма двух независимых переменных, одна из которых является нормальной.

Некоторые из методов оценки для многомерных линейных моделей:

  • Всего наименьших квадратов равно расширение регрессии Деминга на многопараметрическую настройку. Когда все k + 1 компоненты вектора (ε, η) имеют равные дисперсии и независимы, это эквивалентно запуску ортогональной регрессии y по вектору x, то есть регрессии, которая минимизирует сумму квадратов расстояний между точек (y t,xt) и k-мерной гиперплоскости «наилучшего соответствия».
  • Оценка метода моментов может быть построена на основе моментных условий E [z t · (y t — α — β’x t)] = 0, где (5k + 3) -мерный вектор инструментов z t определяется как
    zt = (1 zt 1 ′ zt 2 ′ zt 3 ′ zt 4 ′ zt 5 ′ zt 6 ′ zt 7 ′) ′, где zt 1 = xt ∘ xtzt 2 = xtytzt 3 = yt 2 zt 4 = xt ∘ xt ∘ xt — 3 (E ⁡ [xtxt ′] ∘ I k) xtzt 5 = xt ∘ xtyt — 2 (E ⁡ [ytxt ′] ∘ I k) xt — yt (E ⁡ [xtxt ′] ∘ I k) ι kzt 6 = xtyt 2 — E ⁡ [yt 2] xt — 2 yt E ⁡ [xtyt] zt 7 = yt 3 — 3 yt E ⁡ [yt 2] {\ displaystyle {\ begin {align} z_ {t} = \ left (1 \ z_ {t1} ‘\ z_ {t2}’ \ z_ {t3} ‘\ z_ { t4} ‘\ z_ {t5}’ \ z_ {t6} ‘\ z_ {t7}’ \ right) ‘, \ quad {\ text {where}} \\ z_ {t1} = x_ {t} \ circ x_ { t} \\ z_ {t2} = x_ {t} y_ {t} \\ z_ {t3} = y_ {t} ^ {2} \\ z_ {t4} = x_ {t} \ circ x_ {t} \ circ x_ {t} -3 {\ big (} \ operatorname {E} [x_ {t} x_ {t} ‘] \ circ I_ {k} {\ big)} x_ {t} \\ z_ {t5} = x_ {t} \ circ x_ {t} y_ {t} -2 {\ big (} \ operatorname {E} [y_ {t} x_ {t} ‘] \ circ I_ {k} {\ big)} x_ { t} -y_ {t} {\ big (} \ operatorname {E} [x_ {t} x_ {t} ‘] \ circ I_ {k} {\ big)} \ iota _ {k} \\ z_ {t6 } = x_ {t} y_ {t} ^ {2} — \ operatorname {E} [y_ {t} ^ {2}] x_ {t} -2y_ {t} \ operatorname {E} [x_ {t} y_ {t}] \\ z_ {t7} = y_ {t} ^ {3} -3y_ {t} \ operatorname {E} [y_ {t} ^ {2}] \ end {align}}}\begin{align} z_t = \left( 1\ z_{t1}'\ z_{t2}'\ z_{t3}'\ z_{t4}'\ z_{t5}'\ z_{t6}'\ z_{t7}' \right)', \quad \text{where} \\ z_{t1} = x_t \circ x_t \\ z_{t2} = x_t y_t \\ z_{t3} = y_t^2 \\ z_{t4} = x_t \circ x_t \circ x_t - 3\big(\operatorname{E}[x_tx_t'] \circ I_k\big)x_t \\ z_{t5} = x_t \circ x_t y_t - 2\big(\operatorname{E}[y_tx_t'] \circ I_k\big)x_t - y_t\big(\operatorname{E}[x_tx_t'] \circ I_k\big)\iota_k \\ z_{t6} = x_t y_t^2 - \operatorname{E}[y_t^2]x_t - 2y_t\operatorname{E}[x_ty_t] \\ z_{t7} = y_t^3 - 3y_t\operatorname{E}[y_t^2] \end{align}

    где ∘ {\ displaystyle \ circ}\circ обозначает произведение Адамара матриц, а переменные x t, y t были предварительно лишенный смысла. Авторы метода предлагают использовать модифицированную оценку IV Фуллера..

    Этот метод может быть расширен для использования моментов выше третьего порядка, если необходимо, и для учета переменных, измеренных без ошибок.

  • Подход инструментальных переменных требует поиска дополнительных переменных данных z t, которые будут служить инструментами для неверно измеренных регрессоров x t. Этот метод является наиболее простым с точки зрения реализации, однако его недостаток в том, что он требует сбора дополнительных данных, что может быть дорогостоящим или даже невозможным. Когда инструменты найдены, оценщик принимает стандартную форму
    β ^ = (X ′ Z (Z ′ Z) — 1 Z ′ X) — 1 X ′ Z (Z ′ Z) — 1 Z ′ y. {\ displaystyle {\ hat {\ beta}} = {\ big (} X’Z (Z’Z) ^ {- 1} Z’X {\ big)} ^ {- 1} X’Z (Z’Z) ^ {- 1} Z’y.}{\hat \beta }={\big (}X'Z(Z'Z)^{{-1}}Z'X{\big)}^{{-1}}X'Z(Z'Z)^{{-1}}Z'y.

Нелинейные модели

Общая модель нелинейных ошибок измерения принимает вид

{yt = g (xt ∗) + ε t, xt = xt ∗ + η t. {\ displaystyle {\ begin {cases} y_ {t} = g (x_ {t} ^ {*}) + \ varepsilon _ {t}, \\ x_ {t} = x_ {t} ^ {*} + \ eta _ {t}. \ end {ases}}}{\begin{cases}y_{t}=g(x_{t}^{*})+\varepsilon _{t},\\x_{t}=x_{t}^{*}+\eta _{t}.\end{cases}}

Здесь функция g может быть параметрической или непараметрической. Если функция g параметрическая, она будет записана как g (x *, β).

Для общего векторного регрессора x * условия для модели идентифицируемости неизвестны. Однако в случае скаляра x * модель идентифицируется, если функция g не имеет «логарифмически экспоненциальную» форму

g (x ∗) = a + b ln ⁡ (ecx ∗ + d) {\ displaystyle g ( x ^ {*}) = a + b \ ln {\ big (} e ^ {cx ^ {*}} + d {\ big)}}g(x^{*})=a+b\ln {\big (}e^{{cx^{*}}}+d{\big)}

и скрытый регрессор x * имеет плотность

fx ∗ (Икс) = {А е — В е С Икс + CD Икс (е С Икс + Е) — F, если d>0, А е — В х 2 + С х, если d = 0 {\ displaystyle f_ {x ^ { *}} (x) = {\ begin {cases} Ae ^ {- Be ^ {Cx} + CDx} (e ^ {Cx} + E) ^ {- F}, {\ text {if}} \ d>0 \\ Ae ^ {- Bx ^ {2} + Cx} {\ text {if}} \ d = 0 \ end {cases}}}f_{{x^{*}}}(x)={\begin{cases}Ae^{{-Be^{{Cx}}+CDx}}(e^{{Cx}}+E)^{{-F}},{\text{if}}\ d>0 \\ Ae ^ {{- Bx ^ {2} + Cx}} {\ text {if}} \ d = 0 \ end {cases}}

где константы A, B, C, D, E, F могут зависеть от a, b, c, d.

Несмотря на этот оптимистичный результат, на данный момент не существует методов оценки нелинейных моделей ошибок в переменных без какой-либо посторонней информации. Однако существует несколько методов, которые используют некоторые дополнительные данные: r инструментальные переменные или повторные наблюдения.

Методы инструментальных переменных

  • Метод моделирования моментов Ньюи для параметрических моделей — требует наличия дополнительного набора наблюдаемых переменных-предикторов z t, так что истинный регрессор может быть выражается как
    xt ∗ = π 0 ′ zt + σ 0 ζ t, {\ displaystyle x_ {t} ^ {*} = \ pi _ {0} ‘z_ {t} + \ sigma _ {0} \ zeta _ {t},}x_{t}^{*}=\pi _{0}'z_{t}+\sigma _{0}\zeta _{t},

    где π 0 и σ 0 — (неизвестные) постоянные матрицы, а ζ t ⊥ z t. Коэффициент π 0 можно оценить с помощью стандартной наименьших квадратов регрессии x по z. Распределение ζ t неизвестно, однако мы можем смоделировать его как принадлежащее к гибкому параметрическому семейству — ряду Эджворта :

    f ζ (v; γ) = ϕ (v) ∑ j Знак равно 1 J γ jvj {\ displaystyle f _ {\ zeta} (v; \, \ gamma) = \ phi (v) \, \ textstyle \ sum _ {j = 1} ^ {J} \! \ Gamma _ {j } v ^ {j}}f_{\zeta }(v;\,\gamma)=\phi (v)\,\textstyle \sum _{{j=1}}^{J}\!\gamma _{j}v^{j}

    где ϕ — стандартное нормальное распределение.

    Смоделированные моменты могут быть рассчитаны с использованием алгоритма выборки по важности : сначала мы генерируем несколько случайных величин {v ts ~ ϕ, s = 1,…, S, t = 1,…, T} из стандартного нормального распределения, тогда мы вычисляем моменты в t-м наблюдении как

    mt (θ) = A (zt) 1 S ∑ s = 1 SH (xt, yt, zt, vts; θ) ∑ J знак равно 1 J γ jvtsj, {\ displaystyle m_ {t} (\ theta) = A (z_ {t}) {\ frac {1} {S}} \ sum _ {s = 1} ^ {S} H (x_ {t}, y_ {t}, z_ {t}, v_ {ts}; \ theta) \ sum _ {j = 1} ^ {J} \! \ Gamma _ {j} v_ { ts} ^ {j},}m_{t}(\theta)=A(z_{t}){\frac {1}{S}}\sum _{{s=1}}^{S}H(x_{t},y_{t},z_{t},v_{{ts}};\theta)\sum _{{j=1}}^{J}\!\gamma _{j}v_{{ts}}^{j},

    где θ = (β, σ, γ), A — просто некоторая функция инструментальных переменных z, а H — двухкомпонентный вектор моментов

    H 1 (xt, yt, zt, vts; θ) = yt — g (π ^ ′ zt + σ vts, β), H 2 (xt, yt, zt, vts; θ) = ztyt — (π ^ ′ zt + σ vts) g (π ^ ′ zt + σ vts, β) {\ displaystyle {\ begin {выровнено} H_ {1} (x_ {t}, y_ {t}, z_ {t}, v_ {ts}; \ theta) = y_ {t} -g ({\ hat {\ pi}} ‘z_ {t} + \ sigma v_ {ts}, \ beta), \\ H_ {2} (x_ {t}, y_ {t}, z_ {t}, v_ {ts}; \ theta) = z_ {t} y_ {t} — ({\ hat {\ pi}} ‘z_ {t} + \ sigma v_ {ts}) g ({\ hat {\ pi}}’ z_ {t} + \ sigma v_ {ts}, \ beta) \ end {выровнено}} }{\begin{aligned}H_{1}(x_{t},y_{t},z_{t},v_{{ts}};\theta)=y_{t}-g({\hat \pi }'z_{t}+\sigma v_{{ts}},\beta),\\H_{2}(x_{t},y_{t},z_{t},v_{{ts}};\theta)=z_{t}y_{t}-({\hat \pi }'z_{t}+\sigma v_{{ts}})g({\hat \pi }'z_{t}+\sigma v_{{ts}},\beta)\end{aligned}}

    С помощью моментных функций m t можно применить стандартный метод GMM для оценки неизвестного параметра θ.

Повторные наблюдения

В этом подходе два ( или, может быть, больше) доступны повторные наблюдения регрессора x *. Оба наблюдения содержат собственные ошибки измерения, однако эти ошибки должны быть независимыми:

{x 1 t = xt ∗ + η 1 t, x 2 t = xt ∗ + η 2 t, {\ displaystyle {\ begin { case} x_ {1t} = x_ {t} ^ {*} + \ eta _ {1t}, \\ x_ {2t} = x_ {t} ^ {*} + \ eta _ {2t}, \ end {случаи }}}{\begin{cases}x_{{1t}}=x_{t}^{*}+\eta _{{1t}},\\x_{{2t}}=x_{t}^{*}+\eta _{{2t}},\end{cases}}

где x * ⊥ η 1 ⊥ η 2. Переменные η 1, η 2 не обязательно должны быть одинаково распределены (хотя, если они являются эффективностью средства оценки, можно немного улучшить). С помощью только этих двух наблюдений можно согласованно оценить функцию плотности x *, используя метод Котлярского деконволюции.

  • Метод условной плотности Ли для параметрических моделей. Уравнение регрессии может быть записано в терминах наблюдаемых переменных как
    E ⁡ [y t | x t] = ∫ g (x t ∗, β) f x ∗ | Икс (xt * | xt) dxt *, {\ displaystyle \ Operatorname {E} [\, y_ {t} | x_ {t} \,] = \ int g (x_ {t} ^ {*}, \ beta) f_ {x ^ {*} | x} (x_ {t} ^ {*} | x_ {t}) dx_ {t} ^ {*},}\operatorname {E}[\,y_{t}|x_{t}\,]=\int g(x_{t}^{*},\beta)f_{{ x^{*}|x}}(x_{t}^{*}|x_{t})dx_{t}^{*},

    где можно было бы вычислить интеграл, если бы мы знали функция условной плотности ƒ x * | x ​​. Если эта функция может быть известна или оценена, тогда проблема превращается в стандартную нелинейную регрессию, которую можно оценить, например, с помощью метода NLLS.. Предположим для простоты, что η 1, η 2 одинаково распределены, эта условная плотность может быть вычислена как

    f ^ x ∗ | Икс (Икс * | Икс) знак равно е ^ Икс * (Икс *) е ^ Икс (Икс) ∏ J = 1 КФ ^ η J (xj — xj *), {\ Displaystyle {\ Hat {f}} _ {х ^ {*} | x} (x ^ {*} | x) = {\ frac {{\ hat {f}} _ {x ^ {*}} (x ^ {*})} {{\ hat {f }} _ {x} (x)}} \ prod _ {j = 1} ^ {k} {\ hat {f}} _ {\ eta _ {j}} {\ big (} x_ {j} -x_ {j} ^ {*} {\ big)},}{\ hat f} _ {{x ^ {*} | x}} (x ^ {*} | x) = {\ frac {{\hat f}_{{x^{*}}}(x^{*})}{{\hat f}_{{x}}(x)}}\prod _{{j=1 }}^{k}{\hat f}_{{\eta _{{j}}}}{\big (}x_{{j}}-x_{{j}}^{*}{\big) },

    где с небольшим злоупотреблением обозначениями x j обозначает j-й компонент вектора.. Все плотности в этой формуле могут можно оценить с помощью обращения эмпирических характеристических функций. В частности,

    φ ^ η j (v) = φ ^ xj (v, 0) φ ^ xj ∗ (v), где φ ^ xj (v 1, v 2) = 1 T ∑ t = 1 T eiv 1 x 1 tj + iv 2 x 2 tj, φ ^ xj ∗ (v) = exp ⁡ ∫ 0 v ∂ φ ^ xj (0, v 2) / ∂ v 1 φ ^ xj (0, v 2) dv 2, φ ^ x (u) = 1 2 T ∑ t = 1 T (eiu ′ x 1 t + eiu ′ x 2 t), φ ^ x ∗ (u) = φ ^ x (u) ∏ j = 1 k φ ^ η j (uj). {\ displaystyle {\ begin {align} {\ hat {\ varphi}} _ {\ eta _ {j}} (v) = {\ frac {{\ hat {\ varphi}} _ {x_ {j}} (v, 0)} {{\ hat {\ varphi}} _ {x_ {j} ^ {*}} (v)}}, \ quad {\ text {where}} {\ hat {\ varphi}} _ {x_ {j}} (v_ {1}, v_ {2}) = {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} e ^ {iv_ {1} x_ {1tj } + iv_ {2} x_ {2tj}}, \\ {\ hat {\ varphi}} _ {x_ {j} ^ {*}} (v) = \ exp \ int _ {0} ^ {v} { \ frac {\ partial {\ hat {\ varphi}} _ {x_ {j}} (0, v_ {2}) / \ partial v_ {1}} {{\ hat {\ varphi}} _ {x_ {j }} (0, v_ {2})}} dv_ {2}, \\ {\ hat {\ varphi}} _ {x} (u) = {\ frac {1} {2T}} \ sum _ { t = 1} ^ {T} {\ Big (} e ^ {iu’x_ {1t}} + e ^ {iu’x_ {2t}} {\ Big)}, \ quad {\ hat {\ varphi}} _ {x ^ {*}} (u) = {\ frac {{\ hat {\ varphi}} _ {x} (u)} {\ prod _ {j = 1} ^ {k} {\ hat {\ varphi}} _ {\ eta _ {j}} (u_ {j})}}. \ end {align}}}\begin{align} \hat \varphi_{\eta_j}(v) = \frac{\hat\varphi_{x_j}(v,0)}{\hat\varphi_{x^*_j}(v)}, \quad \text{where } \hat\varphi_{x_j}(v_1,v_2) = \frac{1}{T}\sum_{t=1}^T e^{iv_1x_{1tj}+iv_2x_{2tj}}, \\ \hat\varphi_{x^*_j}(v) = \exp \int_0^v \frac{\partial\hat\varphi_{x_j}(0,v_2)/\partial v_1}{\hat\varphi_{x_j}(0,v_2)}dv_2, \\ \hat \varphi_x(u) = \frac{1}{2T}\sum_{t=1}^T \Big( e^{iu'x_{1t}} + e^{iu'x_{2t}} \Big), \quad \hat \varphi_{x^*}(u) = \frac{\hat\varphi_x(u)}{\prod_{j=1}^k \hat\varphi_{\eta_j}(u_j)}. \end{align}

    Чтобы инвертировать эту характеристическую функцию, нужно применить обратное преобразование Фурье с обрезкой параметр C необходим для обеспечения числовой устойчивости. Например:

    f ^ x (x) = 1 (2 π) k ∫ — C C ⋯ ∫ — C C e — i u ′ x φ ^ x (u) d u. {\ displaystyle {\ hat {f}} _ {x} (x) = {\ frac {1} {(2 \ pi) ^ {k}}} \ int _ {- C} ^ {C} \ cdots \ int _ {- C} ^ {C} e ^ {- iu’x} {\ hat {\ varphi}} _ {x} (u) du.}{\hat f}_{x}(x)={\frac {1}{(2\pi)^{k}}}\int _{{-C}}^{{C}}\cdots \int _{{-C}}^{C}e^{{-iu'x}}{\hat \varphi }_{x}(u)du.
  • Оценка Шеннаха для параметрического линейного входа -параметрическая нелинейная модель в переменных. Это модель вида
    {yt = ∑ j = 1 k β jgj (xt ∗) + ∑ j = 1 ℓ β k + jwjt + ε t, x 1 t = xt ∗ + η 1 T, Икс 2 T знак равно XT * + η 2 T, {\ Displaystyle {\ begin {case} Y_ {t} = \ textstyle \ sum _ {j = 1} ^ {k} \ beta _ {j} g_ {j } (x_ {t} ^ {*}) + \ sum _ {j = 1} ^ {\ ell} \ beta _ {k + j} w_ {jt} + \ varepsilon _ {t}, \\ x_ {1t } = x_ {t} ^ {*} + \ eta _ {1t}, \\ x_ {2t} = x_ {t} ^ {*} + \ eta _ {2t}, \ end {cases}}}{\begin{cases}y_{t}=\textstyle \sum _{{j=1}}^{k}\beta _{j}g_{j}(x_{t}^{*})+\sum _{{j=1}}^{\ell }\beta _{{k+j}}w_{{jt}}+\varepsilon _{t},\\x_{{1t}}=x_{t}^{*}+\eta _{{1t}},\\x_{{2t}}=x_{t}^{*}+\eta _{{2t}},\end{cases}}

    где w t представляет переменные, измеренные без ошибок. Регрессор x * здесь является скалярным (метод может быть расширен и на случай вектора x *).. Если бы не ошибки измерения, это была бы стандартная линейная модель с оценка

    β ^ = (E ^ [ξ t ξ t ′]) — 1 E ^ [ξ tyt], {\ displaystyle {\ hat {\ beta}} = {\ big (} {\ hat {\ operatorname {E}}} [\, \ xi _ {t} \ xi _ {t} ‘\,] {\ big)} ^ {- 1} {\ hat {\ operatorname {E}}} [\, \ xi _ {t} y_ {t} \,],} \hat{\beta} = \big(\hat{\operatorname{E}}[\,\xi_t\xi_t'\,]\big)^{-1} \hat{\operatorname{E}}[\,\xi_t y_t\,],

    где

    ξ t ′ = (g 1 (xt ∗), ⋯, gk (xt ∗), w 1, t, ⋯, wl, t). {\ displaystyle \ xi _ {t} ‘= (g_ {1} (x_ {t} ^ {*}), \ cdots, g_ {k} (x_ {t} ^ {*}), w_ {1, t }, \ cdots, w_ {l, t}).}\xi _{t}'=(g_{1}(x_{t}^{*}),\cdots,g_{k}(x_{t}^{*}),w_{{1,t}},\cdots,w_{{l,t}}).

    Оказывается, все ожидаемые значения в этой формуле можно оценить с помощью того же трюка с деконволюцией. В частности, для типичной наблюдаемой w t (которая может быть 1, w 1t,…, w ℓ t или y t) и некоторой функции h (которая может представлять любые g j или g igj) имеем

    E ⁡ [wth (xt ∗)] = 1 2 π ∫ — ∞ ∞ φ h ( — и) ψ вес (и) ду, {\ Displaystyle \ OperatorName {E} [\, w_ {t} h (x_ {t} ^ {*}) \,] = {\ гидроразрыва {1} {2 \ pi }} \ int _ {- \ infty} ^ {\ infty} \ varphi _ {h} (- u) \ psi _ {w} (u) du,}\operatorname {E}[\,w_{t}h(x_ {t}^{*})\,]={\frac {1}{2\pi }}\int _{{-\infty }}^{\infty }\varphi _{h}(-u)\ psi _{w}(u)du,

    где φ h — преобразование Фурье h (x *), но с использованием того же соглашения, что и для характеристических функций,

    φ h (u) = ∫ eiuxh (x) dx {\ displaystyle \ varphi _ {h} (u) = \ int e ^ {iux} h (x) dx}\varphi _{h}(u)=\int e^{{iux}}h(x)dx,

    и

    ψ w (u) = E ⁡ [wteiux ∗] = E ⁡ [wteiux 1 t] E ⁡ [ eiux 1 t] ехр ⁡ ∫ 0 ui E ⁡ [x 2 teivx 1 t] E ⁡ [eivx 1 t] dv {\ displaystyle \ psi _ {w} (u) = \ operatorname {E} [\, w_ {t } e ^ {iux ^ {*}} \,] = {\ frac {\ operatorname {E} [w_ {t} e ^ {iux_ {1t}}]} {\ operatorname {E} [e ^ {iux_ { 1t}}]}} \ exp \ int _ {0} ^ {u} i {\ frac {\ operatorname {E} [x_ {2t} e ^ {ivx_ {1t}}]} {\ operatorname {E} [e ^ {ivx_ {1t}}]}} dv}\psi_w(u) = \operatorname{E}[\,w_te^{iux^*}\,] = \frac{\operatorname{E}[w_te^{iux_{1t}}]}{\operatorname{E}[e^{iux_{1t}}]} \exp \int_0^u i\frac{\operatorname{E}[x_{2t}e^{ivx_{1t}}]}{\operatorname{E}[e^{ivx_{1t}}]}dv

    Результирующая оценка β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}}\scriptstyle {\hat {\beta }}согласован и асимптотически нормален.

  • Оценка Шеннаха для непараметрической модели. Стандартная оценка Надарая – Ватсона для непараметрической модели принимает вид
    g ^ (x) = E ^ [yt K h (xt ∗ — x)] E ^ [K h (xt ∗ — x)], {\ displaystyle {\ hat {g}} (x) = {\ frac {{\ hat {\ operatorname {E}}} [\, y_ {t} K_ {h} (x_ {t} ^ { *} — x) \,]} {{\ hat {\ operatorname {E}}} [\, K_ {h} (x_ {t} ^ {*} — x) \,]}},}\hat{g}(x) = \frac{\hat{\operatorname{E}}[\,y_tK_h(x^*_t - x)\,]}{\hat{\operatorname{E}}[\,K_h(x^*_t - x)\,]},

    для подходящего выбора ядра K и пропускной способности h. Оба ожидания здесь можно оценить с помощью того же метода, что и в предыдущем методе.

Ссылки

Дополнительная литература

  • Dougherty, Christopher (2011). «Стохастические регрессоры и ошибки измерения». Введение в эконометрику (Четвертое изд.). Издательство Оксфордского университета. С. 300–330. ISBN 978-0-19-956708-9 .
  • Кмента, янв (1986). «Оценка с недостаточными данными». Элементы эконометрики (Второе изд.). Нью-Йорк: Макмиллан. С. 346–391. ISBN 978-0-02-365070-3 .
  • Шеннах, Сюзанна. «Погрешность измерения в нелинейных моделях — обзор». Серия рабочих документов Cemmap. Cemmap. Получено 6 февраля 2018 г.

Внешние ссылки

  • Исторический обзор линейной регрессии с ошибками в обеих переменных, J.W. Гиллард 2006
  • Лекция по эконометрике (тема: Стохастические регрессоры и ошибка измерения) на YouTube, автор Марк Тома.

Понравилась статья? Поделить с друзьями:
  • Ошибки измерения твп
  • Ошибки ивеко стралис на табло расшифровка ic
  • Ошибки измерения дальности
  • Ошибки ивеко еврокарго обозначения
  • Ошибки ивана грозного