Для чего нужна стандартная ошибка регрессии


Когда мы подгоняем регрессионную модель к набору данных, нас часто интересует, насколько хорошо регрессионная модель «подходит» к набору данных. Две метрики, обычно используемые для измерения согласия, включают R -квадрат (R2) и стандартную ошибку регрессии , часто обозначаемую как S.

В этом руководстве объясняется, как интерпретировать стандартную ошибку регрессии (S), а также почему она может предоставить более полезную информацию, чем R 2 .

Стандартная ошибка по сравнению с R-квадратом в регрессии

Предположим, у нас есть простой набор данных, который показывает, сколько часов 12 студентов занимались в день в течение месяца, предшествующего важному экзамену, а также их баллы за экзамен:

Пример интерпретации стандартной ошибки регрессии

Если мы подгоним простую модель линейной регрессии к этому набору данных в Excel, мы получим следующий результат:

Вывод регрессии в Excel

R-квадрат — это доля дисперсии переменной отклика, которая может быть объяснена предикторной переменной. При этом 65,76% дисперсии экзаменационных баллов можно объяснить количеством часов, потраченных на учебу.

Стандартная ошибка регрессии — это среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии. В этом случае наблюдаемые значения отклоняются от линии регрессии в среднем на 4,89 единицы.

Если мы нанесем фактические точки данных вместе с линией регрессии, мы сможем увидеть это более четко:

Обратите внимание, что некоторые наблюдения попадают очень близко к линии регрессии, в то время как другие не так близки. Но в среднем наблюдаемые значения отклоняются от линии регрессии на 4,19 единицы .

Стандартная ошибка регрессии особенно полезна, поскольку ее можно использовать для оценки точности прогнозов. Примерно 95% наблюдений должны находиться в пределах +/- двух стандартных ошибок регрессии, что является быстрым приближением к 95% интервалу прогнозирования.

Если мы заинтересованы в прогнозировании с использованием модели регрессии, стандартная ошибка регрессии может быть более полезной метрикой, чем R-квадрат, потому что она дает нам представление о том, насколько точными будут наши прогнозы в единицах измерения.

Чтобы проиллюстрировать, почему стандартная ошибка регрессии может быть более полезной метрикой для оценки «соответствия» модели, рассмотрим другой пример набора данных, который показывает, сколько часов 12 студентов занимались в день в течение месяца, предшествующего важному экзамену, а также их экзаменационная оценка:

Обратите внимание, что это точно такой же набор данных, как и раньше, за исключением того, что все значения s сокращены вдвое.Таким образом, студенты из этого набора данных учились ровно в два раза дольше, чем студенты из предыдущего набора данных, и получили ровно половину экзаменационного балла.

Если мы подгоним простую модель линейной регрессии к этому набору данных в Excel, мы получим следующий результат:

Вывод регрессии из простой линейной модели в Excel

Обратите внимание, что R-квадрат 65,76% точно такой же, как и в предыдущем примере.

Однако стандартная ошибка регрессии составляет 2,095 , что ровно вдвое меньше стандартной ошибки регрессии в предыдущем примере.

Если мы нанесем фактические точки данных вместе с линией регрессии, мы сможем увидеть это более четко:

Диаграмма рассеяния для простой линейной регрессии

Обратите внимание на то, что наблюдения располагаются гораздо плотнее вокруг линии регрессии. В среднем наблюдаемые значения отклоняются от линии регрессии на 2,095 единицы .

Таким образом, несмотря на то, что обе модели регрессии имеют R-квадрат 65,76% , мы знаем, что вторая модель будет давать более точные прогнозы, поскольку она имеет более низкую стандартную ошибку регрессии.

Преимущества использования стандартной ошибки

Стандартную ошибку регрессии (S) часто бывает полезнее знать, чем R-квадрат модели, потому что она дает нам фактические единицы измерения. Если мы заинтересованы в использовании регрессионной модели для получения прогнозов, S может очень легко сказать нам, достаточно ли точна модель для прогнозирования.

Например, предположим, что мы хотим создать 95-процентный интервал прогнозирования, в котором мы можем прогнозировать результаты экзаменов с точностью до 6 баллов от фактической оценки.

Наша первая модель имеет R-квадрат 65,76%, но это ничего не говорит нам о том, насколько точным будет наш интервал прогнозирования. К счастью, мы также знаем, что у первой модели показатель S равен 4,19. Это означает, что 95-процентный интервал прогнозирования будет иметь ширину примерно 2*4,19 = +/- 8,38 единиц, что слишком велико для нашего интервала прогнозирования.

Наша вторая модель также имеет R-квадрат 65,76%, но опять же это ничего не говорит нам о том, насколько точным будет наш интервал прогнозирования. Однако мы знаем, что вторая модель имеет S 2,095. Это означает, что 95-процентный интервал прогнозирования будет иметь ширину примерно 2*2,095= +/- 4,19 единиц, что меньше 6 и, следовательно, будет достаточно точным для использования для создания интервалов прогнозирования.

Дальнейшее чтение

Введение в простую линейную регрессию
Что такое хорошее значение R-квадрата?

Качество
подбора функции регрессии можно оценить
с помощью стандартных ошибок или
дисперсий остатков и оценок параметров
регрессии.

Стандартная
ошибка или дисперсия остатков. Стандартная
ошибка остатков называется также
стандартной ошибкой оценки регрессии
в связи с интерпретацией возмущающей
переменной и как результата ошибки
спецификации функции регрессии.
Возмущающая переменная и является
случайной с определенным распределением
вероятностей. Математическое ожидание
этой переменной равно нулю, а дисперсия
.
Таким образом,
это дисперсия возмущения в генеральной
совокупности. Нам неизвестны значения
возмущающей переменной. Можно судить
о ней только по остаткам.
Вычисленная по этим остаткам дисперсияявляется оценкой дисперсии возмущающей
переменной. Несмещенной оценкой дисперсии
возмущающего воздействиябудет, следующее выражение:

(35)

В
знаменателе формулы (35) стоит число
степеней свободы ,
гдеn— объем выборки,
am— число объясняющих переменных.
Такое выражение числа степеней свободы
связано с тем, что остатки должны
удовлетворятьm + 1условиям. Кратко поясним это утверждение.
Параметры множественной регрессии

(36)

вычисляют путем решения системы
нормальных уравнений, в матричной форме
записи имеющих вид

(37)

Подставим
(36) в (37):

Раскрыв
скобки и сделав соответствующие выкладки,
получим

(38)

Матричное
уравнение (38) содержит m
+ 1
условий (уравнений), которые
накладываются на остатки, и это приводит
к уменьшению числа степеней свободы.
Приk = 0в силу того, чтох1
= 1
для всехi,

(39)

что
является следствием того, что математическое
ожидание возмущающей переменной равно
нулю. Из (38) при k = 1, … , m,
т также получим

(40)

что
вытекает из следующего: переменные xk(k = 1, … , m) не
коррелируют со значениями возмущения,
т. е.xk(k = 1, … , m) являются
действительно объясняющими, а не
подлежащими объяснению переменными.
Следовательно, в регрессионном анализе
могут обсуждаться только односторонне
направленные зависимости. Поскольку
термин «степень свободы» используется
для обозначения независимой информации,
в данном случае число связей, налагаемых
наnнезависимых
случайных наблюдений, можно интерпретировать
какm + 1параметров
(b0, b1
…,
bm),
которыми определяется функция регрессии.

В
связи с тем что вычисление числителя в
формуле (35) довольно затруднительно, мы
хотим, опустив вывод, привести более
простой способ его определения:

(41)

или
в матричной форме записи:

Выражения
сумм в правой части (41) содержатся в
рабочей таблице для построения регрессии,
а оценки параметров уже получены. Если
снова обратиться к понятию коэффициента
детерминации, введенному в разделах 1
и 2, то станет ясным физический смысл
дисперсии (или стандартного отклонения)
остатков — это та доля общей дисперсии
,
которая не может быть объяснена
зависимостью переменной у от переменныхxk(k = 1, … , m).

Стандартные
ошибки или дисперсии оценок параметров
регрессии. При описании этих показателей
будем исходить из заданных значений
объясняющих переменных.

Оценки
параметров регрессии являются случайными
величинами, имеющими определенное
распределение вероятностей. Возможные
значения оценок рассеиваются вокруг
истинного значения параметра β. Определим
меру рассеяния оценки параметра.
Обозначим через матрицу дисперсий и ковариаций оценок
параметров регрессии:

(42)

Симметрическая
матрица (42) на главной диагонали содержит
дисперсии оценок параметров регрессии
βk,k = 0,1,…,m

(43)

а
вне главной диагонали — их ковариации

(44)

для
klиk = 0,1,…,m, l
= 0,1,…,
m.

Краткая
форма записи матрицы (42):

(45)

Подставив
в (45) формулу (46)

(46)

получим

или

(47)

Далее,
в силу того, что

(48)

имеем

(49)

Так
как неизвестно, используем его оценку.
В результате получаем оценку матрицы
(49),

(50)

элементами
главной диагонали которой являются
искомые оценки дисперсий. Матрицу легко определить, поскольку матрицаизвестна (см. приложение Б), aвычисляется по (35).

Если
мы обозначим через элемент главной диагонали матрицы,
то оценка дисперсии параметра регрессии
bkбудет определяться
выражением

(51)

т.
е. она равна произведению дисперсии
остатков на k-й элемент главной
диагонали обратной матрицы,.
Таким образом, стандартная ошибка оценки
параметра регрессии bkопределяется как

(52)

Найдем
дисперсию и стандартную ошибку оценок
параметров b0и b1простой
линейной регрессии. В случае простой
линейной регрессии имеем

.

а
также

.

Согласно
формуле (50) получим

.

Умножая
на первый элемент главной диагонали
матрицы,
получим оценку дисперсии постоянной
уравнения регрессии b0:

(53)

а
также ее стандартную ошибку:

(54)

Умножив
на второй элемент главной диагонали
матрицы,
получим оценку дисперсии коэффициента
регрессии b1

(55)

а
также стандартную ошибку этого
коэффициента:

(56)

Рассмотрим
более обстоятельно стандартную ошибку
коэффициента b1, простой линейной
регрессии. Для этого сумму квадратов
отклонений в (56) заменим на выражение,
полученное путем преобразования формулы
():

Формула
(56) приобретет вид

(57)

Итак,
стандартная ошибка коэффициента
регрессии зависит:

от
рассеяния остатков. Чем больше доля
вариации значений переменной у,
необъясненной ее зависимостью отх,
найденной методом наименьших квадратов,
тем больше стандартная ошибка коэффициента
регрессии. Следовательно, чем сильнее
наблюдаемые значения переменнойуотклоняются от расчетных значений
регрессии, тем менее точной является
полученная оценка параметра регрессии;

от
рассеяния значений объясняющей переменной
х. Чем сильнее это рассеяние, тем
меньше стандартная ошибка коэффициента
регрессии. Отсюда следует, что при
вытянутом облаке точек на диаграмме
рассеяния получаем более надежную
оценку функции регрессии, чем при
небольшом скоплении точек, близко
расположенных друг к другу;

от
объема выборки. Чем больше объем выборки,
тем меньше стандартная ошибка коэффициента
регрессии. Здесь существует непосредственная
связь с таким свойством оценки параметра
регрессии, как асимптотическая
несмещенность.

Стандартная
ошибка оценки параметра регрессии
используется для оценки качества подбора
функции регрессии. Для этого вычисляется
относительный показатель рассеяния,
обычно выражаемый в процентах:

(58)

Чем
больше относительная стандартная ошибка
оценки параметра, тем более оцененные
величины отличаются от наблюдаемых
значений зависимой переменной и тем
менее надежны оценки прогноза, основанные
на данной функции регрессии.

1

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
Стандартная ошибка оценки, также известная как стандартная ошибка уравнения регрессии, определяется следующим образом (см. (6.23))  [c.280]

Стандартная ошибка уравнения регрессии, Эта статистика SEE представляет собой стандартное отклонение фактических значений теоретических значений У.  [c.650]

Что такое стандартная ошибка уравнения регрессии ).Какие допущения лежат в основе парной регрессии 10. Что такое множественная регрессия  [c.679]

Следующий этап корреляционного анализа — расчет уравнения связи (регрессии). Решение проводится обычно шаговым способом. Сначала в расчет принимается один фактор, который оказывает наиболее значимое влияние на результативный показатель, потом второй, третий и т.д. И на каждом шаге рассчитываются уравнение связи, множественный коэффициент корреляции и детерминации, /»»-отношение (критерий Фишера), стандартная ошибка и другие показатели, с помощью которых оценивается надежность уравнения связи. Величина их на каждом шаге сравнивается с предыдущей. Чем выше величина коэффициентов множественной корреляции, детерминации и критерия Фишера и чем ниже величина стандартной ошибки, тем точнее уравнение связи описывает зависимости, сложившиеся между исследуемыми показателями. Если добавление следующих факторов не улучшает оценочных показателей связи, то надо их отбросить, т.е. остановиться на том уравнении, где эти показатели наиболее оптимальны.  [c.149]

Прогнозное значение ур определяется путем подстановки в уравнение регрессии ух =а + Ьх соответствующего (прогнозного) значения хр. Вычисляется средняя стандартная ошибка прогноза  [c.9]

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка ть и та.  [c.53]

В прогнозных расчетах по уравнению регрессии определяется предсказываемое (ур) значение как точечный прогноз ух при хр =хь т. е. путем подстановки в уравнение регрессии 5 = а + b х соответствующего значения х. Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки ух, т. е. Шух, и соответственно интервальной оценкой прогнозного значения (у )  [c.57]

Чтобы понять, как строится формула для определения величин стандартной ошибки ух, обратимся к уравнению линейной регрессии ух = а + b х. Подставим в это уравнение выражение параметра а  [c.57]

При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от точности прогноза значения фактора х. Его величина может задаваться на основе анализа других моделей исходя из конкретной ситуации, а также из анализа динамики данного фактора.  [c.61]

В скобках указаны стандартные ошибки параметров уравнения регрессии.  [c.327]

В скобках указаны стандартные ошибки параметров уравнения регрессии. Определим по этому уравнению расчетные значения >>, ,, а затем параметры уравнения регрессии (7.44). Получим следующие результаты  [c.328]

Стандартные ошибки коэффициентов уравнения регрессии, t — критерий  [c.7]

На каждом шаге рассматриваются уравнение регрессии, коэффициенты корреляции и детерминации, F-критерий, стандартная ошибка оценки и другие оценочные показатели. После каждого шага перечисленные оценочные показатели сравниваются с  [c.39]

Проблемы с методологией регрессии. Методология регрессии — это традиционный способ уплотнения больших массивов данных и их сведения в одно уравнение, отражающее связь между мультипликаторами РЕ и финансовыми фундаментальными переменными. Но данный подход имеет свои ограничения. Во-первых, независимые переменные коррелируют друг с другом . Например, как видно из таблицы 18,2, обобщающей корреляцию между коэффициентами бета, ростом и коэффициентами выплат для всех американских фирм, быстрорастущие фирмы обычно имеют большой риск и низкие коэффициенты выплат. Обратите внимание на отрицательную корреляцию между коэффициентами выплат и ростом, а также на положительную корреляцию между коэффициентами бета и ростом. Эта мультиколлинеарность делает мультипликаторы регрессии ненадежными (увеличивает стандартную ошибку) и, возможно, объясняет ошибочные знаки при коэффициентах и крупные изменения этих мультипликаторов в разные периоды. Во-вторых, регрессия основывается на линейной связи между мультипликаторами РЕ и фундаментальными переменными, и данное свойство, по всей вероятности, неадекватно. Анализ остаточных явлений, связанных с корреляцией, может привести к трансформациям независимых переменных (их квадратов или натуральных логарифмов), которые в большей степени подходят для объяснения мультипликаторов РЕ. В-третьих, базовая связь между мультипликаторами РЕ и финансовыми переменными сама по себе не является стабильной. Если же эта связь смещается из года в год, то прогнозы, полученные из регрессионного уравнения, могут оказаться ненадежными для более длительных периодов времени. По всем этим причинам, несмотря на полезность регрессионного анализа, его следует рассматривать только как еще один инструмент поиска подлинного значения ценности.  [c.649]

На рисунке 16.6 явно просматривается четкая линейная зависимость объема частного потребления от величины располагаемого дохода. Уравнение парной линейной регрессии, оцененное по этим данным, имеет вид С= -217,6 + 1,007 Yf Стандартные ошибки для свободного члена и коэффициента парной регрессии равны, соответственно, 28,4 и 0,012, а -статистики — -7,7 и 81 9. Обе они по модулю существенно превышают 3, следовательно, их статистическая значимость весьма высока. Впрочем, несмотря на то, что здесь удалось оценить статистически значимую линейную функцию потребления, в ней нарушены сразу две предпосылки Кейнса — уровень автономного потребления С0 оказался отрицательным, а предель-  [c.304]

Стандартные ошибки свободного члена и коэффициента регрессии равны, соответственно, 84,7 и 0,46 их /-статистики — (-21,4 и 36,8). По абсолютной величине /-статистики намного превышают 3, и это свидетельствует о высокой надежности оцененных коэффициентов. Коэффициент детерминации /Р уравнения равен 0,96, то есть объяснено 96% дисперсии объема потребления. И в то же время уже по рисунку видно, что оцененная рефессия не очень хоро-  [c.320]

Эта стандартная ошибка S у, равная 0,65, указывает отклонение фактических данных от прогнозируемых на основании использования воздействующих факторов j i и Х2 (влияние среди покупателей бабушек с внучками и высокопрофессионального вклада Шарика). В то же время мы располагаем обычным стандартным отклонением Sn, равным 1,06 (см. табл.8), которое было рассчитано для одной переменной, а именно сами текущие значения уги величина среднего арифметического у, которое равно 6,01. Легко видеть, что S у< Sn следовательно, ошибки прогнозирования, как правило, оказываются меньшими, если использовать уравнение регрессии (учитывается вклад факторов j i и Х2), а не ограничиваться только значением у.  [c.64]

Эти два выражения показывают, как возникает ковариация между [52 и Рз в СИЛУ присутствия 2ыу в каждом из выражений для ошибок Р2 и (33. Положительное и большое значение ос приводит, как мы видим, к большим противоположным значениям ошибок J32 и(33- Если (32 оценивает значение р 2 снизу, то р3 оценивает значение ps сверху, и наоборот. Очень важным является то обстоятельство, что стандартные ошибки могут служить одним из индикаторов наличия мульти-коллинеарности. Формула (5.84) показывает, что истинное значение стандартной ошибки возрастает с увеличением а, однако эта формула содержит неизвестный параметр а . В оцененной величине стандартной ошибки значение а заменяется на Ее2/(п — /г), где 2е2 — сумма квадратов остатков после подгонки уравнения регрессии к эмпирическим данным. Как было показано в (5.19),  [c.162]

С помощью парной регрессии устанавливается математическая зависимость (в виде уравнения) между метрической зависимой (критериальной) переменной и метрической независимой переменной (предиктором). Уравнение описывает прямую линиию, и для его вывода используют метод наименьших В случае построения регрессии с нормированными данными отрезок, отсекаемый на оси OY, принимает значение, равное 0, и коэффициенты регрессии называют взвешенными Силу тесноты связи измеряют ко-детерминации который получают, вычисляя отношение к Стандартную ошибку уравнения регрессии используют для оценки точности предсказания, и ее можно интерпретировать как род средней ошибки, сделанной при теоретическом предсказании Y, исходя из уравнения регрессии.  [c.678]

В скобках указаны стандартные ошибки коэффициентов регрессии. «Коэффициенты детерминации рассчитаны по линеаризованным уравнениям регрессии.  [c.237]

Это уравнение намного лучше, чем (5). Все коэффициенты статистически значимы, их коэффициенты по абсолютной величине в 7-10 раз превышают свои стандартные ошибки. Уравнение соответствует макроэкономической теории, говорящей об отрицательной зависимости величины реального чистого экспорта от реального ВНП и валютного курса. Взглянув на рис. 18.7, можно отметить, что рассчитанные по уравнению регрессии величины ВНП за 1965-1990 гг. очень близки к фактическим. Единственной проблемой является то, что статистика Дарбина-Уотсона существенно меньше двух, -таким образом, можно попытаться улучшить это уравнение. При этом мы надеемся избавиться от автокорреляции остатков (то есть, получить более близкую к двум DW) и, возможно, увеличить долю объясненной дисперсии RNX, то есть R2.  [c.346]

В скобках указаны стандартные ошибки параметров уравнения регрессии. Применение метода инструментальных переменных привело к статистической незначимости параметра С[ = 0,109 при переменной yf . Это произошло ввиду высокой мультиколлинеарности факторов, иyt v. Несмотря на то что результаты, полученные обычным МНК, на первый взгляд лучше, чем результаты применения метода инструментальных переменных, результатам обычного МНК вряд ли можно доверять вследствие нарушения в данной модели его предпосылок. Поскольку ни один из методов не привел к получению достоверных результатов расчетов параметров, следует перейти к получению оценок параметров данной модели авторегрессии методом максимального правдоподобия.  [c.328]

Нетрудно заметить, что в данном случае не выполняются необходимые предпосылки МНК об отклонениях Si точек наблюдений от линии регрессии (см. параграф 6.1). Эти отклонения явно не обладают постоянной дисперсией и не являются взаимно независимыми. Нарушение необходимых предпосылок делает неточными полученные оценки коэффициентов регрессии, увеличивая их стандартные ошибки, и обычно свидетельствует о неверной спецификации самого уравнения. Поэтому следующим этапом проверки качества уравнения регрессии является проверка выполнимости предпосылок МНК. Причины невыполнимости этих предпосылок, их последствия и методы корректировки будут подробно рассмотрены в последующих главах. В данном разделе мы лишь обозначим эти проблемы, а также обсудим весьма популярную в регрессионном анализе статистику Дарбина— Уотсона.  [c.164]

В скобках указаны стандартные ошибки соответствующих коэффициентов. Можно отметить, что статистическое качество полученного уравнения регрессии практически идеально. Все г-статистики превышают 5 по абсолютной величине (а, грубо говоря, границей для очень хорошей оценки является 3). Очень высока доля дисперсии зависимой переменной, объясненная с помощью уравнения регрессии, — 94,2% — особенно с учетом того, что уравнение регрессии связывает относительные величины, не имеющие выраженного временного тренда. Статистика Дарбина-Уотсона ЯИ очень близка к 2, и, даже не прибегая к таблицам, здесь ясно, что гипотеза об отсутствии автокорреляции остатков первого порядка будет принята при любом разумно малом уровне значимости. Итак, мы имеем хороший пример линейной регрессии, когда можно оценить ее статистическую значимость, не прибегая к таблицам распределений Стьюден-та, Фишера или Дарбина-Уотсона, а лишь по общему порядку полученных статистик.  [c.330]

Это уравнение приемлемо по всем параметрам и статистическим характеристикам. Единственное, что имеет смысл сделать в нем, это замена переменных ER и ER на одну переменную ER(-l). Это можно сделать, поскольку абсолютные величины коэффициентов при ER и ER почти одинаковы. В таком случае можно сделать преобразование (-a-ER+aAER) = (-aER + a(ER — ER(-l))=-aER(-l), и мы можем использовать это равенство для сокращения числа объясняющих переменных.1 Включив снова преобразование AR(l) (для которого коэффициент авторегрессии соседних отклонений et получился равен р=0,71, со стандартной ошибкой 0,16), получаем уравнение регрессии  [c.363]

Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие tpa 4 > tTa6n. В противном случае доверять полученной оценке параметра нет оснований.  [c.139]

Для определения профиля посетителей магазинов местного торгового центра, не имеющих определенной цели (browsers), маркетологи использовали три набора независимых переменных демографические, покупательское поведение психологические. Зависимая переменная представляет собой индекс посещения магазина без определенной цели, индекс (browsing index). Методом ступенчатой включающей все три набора переменных, выявлено, что демографические факторы — наиболее сильные предикторы, определяющие поведение покупателей, не преследующих конкретных целей. Окончательное уравнение регрессии, 20 из 36 возможных переменных, включало все демографические переменные. В следующей таблице приведены коэффициенты регрессии, стандартные ошибки коэффициентов, а также их уровни значимости.  [c.668]


Загрузить PDF


Загрузить PDF

Стандартная ошибка оценки служит для того, чтобы выяснить, как линия регрессии соответствует набору данных. Если у вас есть набор данных, полученных в результате измерения, эксперимента, опроса или из другого источника, создайте линию регрессии, чтобы оценить дополнительные данные. Стандартная ошибка оценки характеризует, насколько верна линия регрессии.

  1. Изображение с названием Calculate the Standard Error of Estimate Step 1

    1

    Создайте таблицу с данными. Таблица должна состоять из пяти столбцов, и призвана облегчить вашу работу с данными. Чтобы вычислить стандартную ошибку оценки, понадобятся пять величин. Поэтому разделите таблицу на пять столбцов. Обозначьте эти столбцы так:[1]

  2. Изображение с названием Calculate the Standard Error of Estimate Step 2

    2

    Введите данные в таблицу. Когда вы проведете эксперимент или опрос, вы получите пары данных — независимую переменную обозначим как x, а зависимую или конечную переменную как y. Введите эти значения в первые два столбца таблицы.

    • Не перепутайте данные. Помните, что определенному значению независимой переменной должно соответствовать конкретное значение зависимой переменной.
    • Например, рассмотрим следующий набор пар данных:
      • (1,2)
      • (2,4)
      • (3,5)
      • (4,4)
      • (5,5)
  3. Изображение с названием Calculate the Standard Error of Estimate Step 3

    3

    Вычислите линию регрессии. Сделайте это на основе представленных данных. Эта линия также называется линией наилучшего соответствия или линией наименьших квадратов. Расчет можно сделать вручную, но это довольно утомительно. Поэтому рекомендуем воспользоваться графическим калькулятором или онлайн-сервисом, которые быстро вычислят линию регрессии по вашим данным.[2]

    • В этой статье предполагается, что уравнение линии регрессии дано (известно).
    • В нашем примере линия регрессии описывается уравнением y^{{\prime }}=0,6x+2,2.
  4. Изображение с названием Calculate the Standard Error of Estimate Step 4

    4

    Вычислите прогнозируемые значения по линии регрессии. С помощью уравнения линии регрессии можно вычислить прогнозируемые значения «y» для значений «x», которые есть и которых нет в наборе данных.

    Реклама

  1. Изображение с названием Calculate the Standard Error of Estimate Step 5

    1

    Вычислите ошибку каждого прогнозируемого значения. В четвертом столбце таблицы запишите ошибку каждого прогнозируемого значения. В частности, вычтите прогнозируемое значение (y^{{\prime }}) из фактического (наблюдаемого) значения (y).[3]

    • В нашем примере вычисления будут выглядеть так:
  2. Изображение с названием Calculate the Standard Error of Estimate Step 6

    2

    Вычислите квадраты ошибок. Возведите в квадрат каждое значение четвертого столбца, а результаты запишите в последнем (пятом) столбце таблицы.

    • В нашем примере вычисления будут выглядеть так:
  3. Изображение с названием Calculate the Standard Error of Estimate Step 7

    3

    Найдите сумму квадратов ошибок. Она пригодится для вычисления стандартного отклонения, дисперсии и других величин. Чтобы найти сумму квадратов ошибок, сложите все значения пятого столбца. [4]

    • В нашем примере вычисления будут выглядеть так:
      • 0,64+0,36+1,0+0,36+0,04=2,4
  4. Изображение с названием Calculate the Standard Error of Estimate Step 8

    4

    Завершите расчеты. Стандартная ошибка оценки — это квадратный корень из среднего значения суммы квадратов ошибок. Обычно ошибка оценки обозначается греческой буквой \sigma . Поэтому сначала разделите сумму квадратов ошибок на число пар данных. А потом из полученного значения извлеките квадратный корень.[5]

    • Если рассматриваемые данные представляют всю совокупность, среднее значение находится так: сумму нужно разделить на N (количество пар данных). Если же рассматриваемые данные представляют некоторую выборку, вместо N подставьте N-2.
    • В нашем примере, скорее всего, имеет место выборка, потому что мы рассматриваем всего 5 пар данных. Поэтому стандартную ошибку оценки вычислите следующим образом:
  5. Изображение с названием Calculate the Standard Error of Estimate Step 9

    5

    Интерпретируйте полученный результат. Стандартная ошибка оценки — это статистический показатель, которые оценивает, насколько близко измеренные данные лежат к линии регрессии. Ошибка оценка «0» означает, что каждая точка лежит непосредственно на линии. Чем выше ошибка оценки, тем дальше от линии регрессии лежат точки.[6]

    • В нашем примере выборка достаточно маленькая, поэтому стандартная оценка ошибки 0,894 является довольно низкой и характеризует близко расположенные данные.

    Реклама

Об этой статье

Эту страницу просматривали 4986 раз.

Была ли эта статья полезной?

Стандартная ошибка регрессии и R-квадрат являются ценными математическими расчетами, которые можно использовать для оценки набора данных. Хотя эти два расчета похожи, между ними есть явные различия, которые делают их применение уникальным. Научившись использовать стандартную ошибку регрессии и R-квадрат, вы сможете улучшить свои аналитические способности и стать более эффективным специалистом. В этой статье мы обсудим, что такое стандартная ошибка регрессии, что такое R-квадрат и как эти два показателя сравниваются, включая ключевые различия в их применении.

Что такое стандартная ошибка регрессии?

Стандартная ошибка регрессии — это мера логической регрессии, которую можно применить к набору данных, чтобы определить, насколько далеко среднее значение в наборе данных находится от линии регрессии данных. Это дает представление о том, насколько точно ваша регрессия соответствует набору данных и насколько уверенно вы должны оценивать значение, полученное с помощью линии регрессии. При проведении анализа значений со стандартной ошибкой регрессии примерно 95% наблюдаемых данных должны находиться на расстоянии менее двух стандартных ошибок регрессии от линии регрессии.

Что означает R-квадрат?

R-квадрат — это регрессионный показатель, применяемый к набору данных и анализирующий взаимосвязь между зависимой и независимой переменными. Нахождение коэффициента R-квадрат показывает, какой процент зависимой переменной можно точно предсказать на основе значения независимой переменной. Более высокое значение R-квадрат указывает на сильную корреляцию между двумя переменными, в то время как низкое значение R-квадрат указывает на то, что между двумя переменными существует менее прямая корреляция. Это может помочь вам определить, насколько предсказуемо вы можете учесть изменения в объеме производства, изменив один из производственных факторов, например.

Стандартная ошибка регрессии против. R-квадрат

Хотя и стандартная ошибка регрессии, и R-квадрат могут дать ценную информацию при оценке набора данных, между ними есть важные различия, которые помогут вам определить, какой из них более полезен или вы можете эффективно применять оба показателя. Ключевые различия между R-квадратом и стандартной ошибкой регрессии включают:

Единицы измерения

Первое существенное различие между этими двумя расчетами заключается в единицах, в которых они возвращают значения. При расчете R-квадрат вы получаете значение в виде десятичной дроби без единиц измерения. Вы можете преобразовать это значение в процент, умножив его на 100. R-квадрат остается таким независимо от единиц, используемых для анализируемой информации.

При расчете стандартной ошибки регрессии вы получаете ответ в тех же единицах, что и ваша независимая переменная. Например, оценка максимальной скорости автомобилей в сравнении с их лошадиными силами даст R-квадрат, измеренный в процентах, и ошибку регрессии, измеренную в милях в час.

Предоставленная информация

Так же, как оба расчета используют разные единицы измерения в своих результатах, стандартная ошибка регрессии и R-квадрат также предоставляют разную информацию, когда вы их используете. Стандартная ошибка регрессии предоставляет конкретную информацию, связанную с точными показателями переменных, которые вы измеряете. Функционируя в единицах, которые вы использовали для измерения зависимой переменной, она показывает, насколько точно вы можете предсказать производительность, основываясь на знании независимой переменной.

R-квадрат не предоставляет вам непосредственно применимую информацию о том, насколько точно вы можете оценить значение на зависимом уровне. Вместо этого она позволяет проанализировать существующие результаты и определить, какую часть показателей зависимой переменной можно напрямую отнести на счет влияния независимой переменной.

Практическое применение

Эти различия в единицах измерения и информации оказывают существенное влияние на практическое применение каждого расчета. Стандартная ошибка регрессии позволяет определить предполагаемые уровни эффективности и уровень доверия к ним. Низкая стандартная ошибка регрессии означает, что ваши данные более плотно прилегают к линии регрессии, и вы можете более точно предсказать результаты на определенном уровне зависимой переменной. Это часто более понятное применение, так как получение информации в единицах, которые вы измеряете, облегчает понимание результатов стандартной ошибки регрессии.

Практическое применение R-квадрат лучше всего использовать для определения взаимосвязи между двумя переменными. Анализ корреляции между зависимой и независимой переменными может помочь вам принимать обоснованные бизнес-решения. Например, выявление сильной связи между качеством компонента и удовлетворенностью клиентов может продемонстрировать ценность инвестиций в более дорогое сырье в процессе производства. Выявление корреляции с низким R-квадрат вместо этого указывает на минимальное влияние на зависимую переменную, если вы внесете изменения в независимую переменную.

Пример стандартной ошибки регрессии против. R-квадрат

Компания проводит анализ эффективности рекламных кампаний, связанных с продажами отдельного продукта в своей линии. Компания ранее провела пять рекламных кампаний, с разными бюджетами для каждого случая. Они создают набор данных, записывая маркетинговый бюджет, выделенный на каждую кампанию, количество продаж, сгенерированных в ходе каждой кампании, и соотношение долларов на продажу для каждой кампании.

Маркетинговый бюджет

Продажи

Коэффициент ($sale)

Стандартная ошибка

1

$6,100

191

32

54.588

2

$13,600

470

29

3

$13,400

574

R-квадрат

4

$13,300

451

0.92001

5

$6,700

221

92%

Используя автоматизированные функции в своей программе электронных таблиц, компания рассчитывает стандартную ошибку регрессии и R-квадрат для маркетинговых данных. В документе получен R-квадрат 92%, что указывает на сильную связь между расходами на маркетинг и продажами, сделанными. Увеличение или уменьшение расходов оказывает значительное достоверное влияние на количество продаж. Расчет стандартной ошибки регрессии дает значение 54.588, что означает, что данные по продажам отличаются от линии регрессии в среднем на 54.588 продажи. Поэтому, оценивая продажи для установленного бюджета, компания может ожидать, что средняя ошибка составит менее 55 от общего объема продаж.

Понравилась статья? Поделить с друзьями:
  • Дмитрий шевченко право на ошибку
  • Дмитрий тараван мои любимые ошибки
  • Для чего нужен функционал ошибки
  • Для чего нужен код ошибки
  • Для устранения ошибок регистрации используют