Обозначение ошибки прогноза

Ошибка прогнозирования: виды, формулы, примеры

Ошибка прогнозирования — это такая величина, которая показывает, как сильно прогнозное значение отклонилось от фактического. Она используется для расчета точности прогнозирования, что в свою очередь помогает нам оценивать как точно и корректно мы сформировали прогноз. В данной статье я расскажу про основные процентные «ошибки прогнозирования» с кратким описанием и формулой для расчета. А в конце статьи я приведу общий пример расчётов в Excel. Напомню, что в своих расчетах я в основном использую ошибку WAPE или MAD-Mean Ratio, о которой подробно я рассказал в статье про точность прогнозирования, здесь она также будет упомянута.

В каждой формуле буквой Ф обозначено фактическое значение, а буквой П — прогнозное. Каждая ошибка прогнозирования (кроме последней!), может использоваться для нахождения общей точности прогнозирования некоторого списка позиций, по типу того, что изображен ниже (либо для любого другого подобной детализации):

Алгоритм для нахождения любой из ошибок прогнозирования для такого списка примерно одинаковый: сначала находим ошибку прогнозирования по одной позиции, а затем рассчитываем общую. Итак, основные ошибки прогнозирования!


MPE — Mean Percent Error

MPE — средняя процентная ошибка прогнозирования. Основная проблема данной ошибки заключается в том, что в нестабильном числовом ряду с большими выбросами любое незначительное колебание факта или прогноза может значительно поменять показатель ошибки и, как следствие, точности прогнозирования. Помимо этого, ошибка является несимметричной: одинаковые отклонения в плюс и в минус по-разному влияют на показатель ошибки.

Ошибка прогнозирования MPE

  1. Для каждой позиции рассчитывается ошибка прогноза (из факта вычитается прогноз) — Error
  2. Для каждой позиции рассчитывается процентная ошибка прогноза (ошибка прогноза делится на фактический показатель) — Percent Error
  3. Находится среднее арифметическое всех процентных ошибок прогноза (процентные ошибки суммируются и делятся на количество) — Mean Percent Error

MAPE — Mean Absolute Percent Error

MAPE — средняя абсолютная процентная ошибка прогнозирования. Основная проблема данной ошибки такая же, как и у MPE — нестабильность.

Ошибка прогнозирования MAPE

  1. Для каждой позиции рассчитывается абсолютная ошибка прогноза (прогноз вычитается из факта по модулю) — Absolute Error
  2. Для каждой позиции рассчитывается абсолютная процентная ошибка прогноза (абсолютная ошибка прогноза делится на фактический показатель) — Absolute Percent Error
  3. Находится среднее арифметическое всех абсолютных процентных ошибок прогноза (абсолютные процентные ошибки суммируются и делятся на количество) — Mean Absolute Percent Error

Вместо среднего арифметического всех абсолютных процентных ошибок прогноза можно использовать медиану числового ряда (MdAPE — Median Absolute Percent Error), она наиболее устойчива к выбросам.


WMAPE / MAD-Mean Ratio / WAPE — Weighted Absolute Percent Error

WAPE — взвешенная абсолютная процентная ошибка прогнозирования. Одна из «лучших ошибок» для расчета точности прогнозирования. Часто называется как MAD-Mean Ratio, то есть отношение MAD (Mean Absolute Deviation — среднее абсолютное отклонение/ошибка) к Mean (среднее арифметическое). После упрощения дроби получается искомая формула WAPE, которая очень проста в понимании:

Ошибка прогнозирования WAPE MAD-Mean Ratio

  1. Для каждой позиции рассчитывается абсолютная ошибка прогноза (прогноз вычитается из факта, по модулю) — Absolute Error
  2. Находится сумма всех фактов по всем позициям  (общий фактический объем)
  3. Сумма всех абсолютных ошибок делится на сумму всех фактов — WAPE

Данная ошибка прогнозирования является симметричной и наименее чувствительна к искажениям числового ряда.

Рекомендуется к использованию при расчете точности прогнозирования. Более подробно читать здесь.


RMSE (as %) / nRMSE — Root Mean Square Error

RMSE — среднеквадратичная ошибка прогнозирования. Примерно такая же проблема, как и в MPE и MAPE: так как каждое отклонение возводится в квадрат, любое небольшое отклонение может значительно повлиять на показатель ошибки. Стоит отметить, что существует также ошибка MSE, из которой RMSE как раз и получается путем извлечения корня. Но так как MSE дает расчетные единицы измерения в квадрате, то использовать данную ошибку будет немного неправильно.

Ошибка прогнозирования RMSE

  1. Для каждой позиции рассчитывается квадрат отклонений (разница между фактом и прогнозом, возведенная в квадрат) — Square Error
  2. Затем рассчитывается среднее арифметическое (сумма квадратов отклонений, деленное на количество) — MSE — Mean Square Error
  3. Извлекаем корень из полученного результат — RMSE
  4. Для перевода в процентную или в «нормализованную» среднеквадратичную ошибку необходимо:
    1. Разделить на разницу между максимальным и минимальным значением показателей
    2. Разделить на разницу между третьим и первым квартилем значений показателей
    3. Разделить на среднее арифметическое значений показателей (наиболее часто встречающийся вариант)

MASE — Mean Absolute Scaled Error

MASE — средняя абсолютная масштабированная ошибка прогнозирования. Согласно Википедии, является очень хорошим вариантом для расчета точности, так как сама ошибка не зависит от масштабов данных и является симметричной: то есть положительные и отрицательные отклонения от факта рассматриваются в равной степени.

Важно! Если предыдущие ошибки прогнозирования мы могли использовать для нахождения точности прогнозирования некого списка номенклатур, где каждой из которых соответствует фактическое и прогнозное значение (как было в примере в начале статьи), то данная ошибка для этого не предназначена: MASE используется для расчета точности прогнозирования одной единственной позиции, основываясь на предыдущих показателях факта и прогноза, и чем больше этих показателей, тем более точно мы сможем рассчитать показатель точности. Вероятно, из-за этого ошибка не получила широкого распространения.

Здесь данная формула представлена исключительно для ознакомления и не рекомендуется к использованию.

Суть формулы заключается в нахождении среднего арифметического всех масштабированных ошибок, что при упрощении даст нам следующую конечную формулу:

Ошибка прогнозирования MASE

Также, хочу отметить, что существует ошибка RMMSE (Root Mean Square Scaled Error — Среднеквадратичная масштабированная ошибка), которая примерно похожа на MASE, с теми же преимуществами и недостатками.


Это основные ошибки прогнозирования, которые могут использоваться для расчета точности прогнозирования. Но не все! Их очень много и, возможно, чуть позже я добавлю еще немного информации о некоторых из них. А примеры расчетов уже описанных ошибок прогнозирования будут выложены через некоторое время, пока что я подготавливаю пример, ожидайте.

Об авторе

HeinzBr

Автор статей и создатель сайта SHTEM.RU

From Wikipedia, the free encyclopedia

In statistics, a forecast error is the difference between the actual or real and the predicted or forecast value of a time series or any other phenomenon of interest. Since the forecast error is derived from the same scale of data, comparisons between the forecast errors of different series can only be made when the series are on the same scale.[1]

In simple cases, a forecast is compared with an outcome at a single time-point and a summary of forecast errors is constructed over a collection of such time-points. Here the forecast may be assessed using the difference or using a proportional error. By convention, the error is defined using the value of the outcome minus the value of the forecast.

In other cases, a forecast may consist of predicted values over a number of lead-times; in this case an assessment of forecast error may need to consider more general ways of assessing the match between the time-profiles of the forecast and the outcome. If a main application of the forecast is to predict when certain thresholds will be crossed, one possible way of assessing the forecast is to use the timing-error—the difference in time between when the outcome crosses the threshold and when the forecast does so. When there is interest in the maximum value being reached, assessment of forecasts can be done using any of:

  • the difference of times of the peaks;
  • the difference in the peak values in the forecast and outcome;
  • the difference between the peak value of the outcome and the value forecast for that time point.

Forecast error can be a calendar forecast error or a cross-sectional forecast error, when we want to summarize the forecast error over a group of units. If we observe the average forecast error for a time-series of forecasts for the same product or phenomenon, then we call this a calendar forecast error or time-series forecast error. If we observe this for multiple products for the same period, then this is a cross-sectional performance error. Reference class forecasting has been developed to reduce forecast error. Combining forecasts has also been shown to reduce forecast error.[2][3]

Calculating forecast error[edit]

The forecast error is the difference between the observed value and its forecast based on all previous observations. If the error is denoted as e(t) then the forecast error can be written as:

{\displaystyle e(t)=y(t)-{\hat {y}}(t|t-1)}

where,

y(t) = observation

{\displaystyle {\hat {y}}(t|t-1)} = denote the forecast of y(t) based on all previous observations

Forecast errors can be evaluated using a variety of methods namely mean percentage error, root mean squared error, mean absolute percentage error, mean squared error. Other methods include tracking signal and forecast bias.

For forecast errors on training data

y(t) denotes the observation and {\displaystyle {\hat {y}}(t|t-1)} is the forecast

For forecast errors on test data

{\displaystyle y(t+h)} denotes the actual value of the h-step observation and the forecast is denoted as {\displaystyle {\hat {y}}(t+h|t)}

Academic literature[edit]

Dreman and Berry in 1995 «Financial Analysts Journal», argued that securities analysts’ forecasts are too optimistic, and that the investment community relies too heavily on their forecasts. However, this was countered by Lawrence D. Brown in 1996 and then again in 1997 who argued that the analysts are generally more accurate than those of «naive or sophisticated time-series models» nor have the errors been increasing over time.[4][5]

Hiromichi Tamura in 2002 argued that herd-to-consensus analysts not only submit their earnings estimates that end up being close to the consensus but that their personalities strongly affect these estimates.[6]

Examples of forecasting errors[edit]

Michael Fish — A few hours before the Great Storm of 1987 broke, on 15 October 1987, he said during a forecast: «Earlier on today, apparently, a woman rang the BBC and said she heard there was a hurricane on the way. Well, if you’re watching, don’t worry, there isn’t!». The storm was the worst to hit South East England for three centuries, causing record damage and killing 19 people.[7]

Great Recession — The financial and economic «Great Recession» that erupted in 2007—arguably the worst since the Great Depression of the 1930s—was not foreseen by most forecasters, though a number of analysts had been predicting it for some time (for example, Brooksley Born, Dean Baker, Marc Faber, Fred Harrison, Raghuram Rajan, Stephen Roach, Nouriel Roubini, Peter Schiff, Gary Shilling, Robert Shiller, William White, and Meredith Whitney).[8][9][10][11] The UK’s Queen Elizabeth herself asked why had “nobody” noticed that the credit crunch was on its way, and a group of economists—experts from business, the City, its regulators, academia, and government—tried to explain in a letter.[12]

It was not just forecasting the Great Recession, but also its impact where it was clear that economists struggled. For example, in Singapore, Citi argued the country would experience «the most severe recession in Singapore’s history». The economy grew in 2009 by 3.1%, and in 2010 the nation saw a 15.2% growth rate.[13][14]

Similarly, Nouriel Roubini predicted in January 2009 that oil prices would stay below $40 for all of 2009. By the end of 2009, however, oil prices were at $80.[15][16] In March 2009, he predicted the S&P 500 would fall below 600 that year, and possibly plummet to 200.[17] It closed at over 1,115 however, up 24%, the largest single-year gain since 2003. CNBC’s Jim Cramer wrote that Roubini was «intoxicated» with his own «prescience and vision,» and should realize that things are better than he predicted; Roubini called Cramer a «buffoon,» and told him to «just shut up».[15][18] Although in April 2009, Roubini prophesied that the United States economy would decline in the final two quarters of 2009, and that the US economy would increase just 0.5% to 1% in 2010, in fact the U.S. economy in each of those six quarters increased at a 2.5% average annual rate.[19] Then in June 2009 he predicted that what he called a «perfect storm» was just around the corner, but no such perfect storm ever appeared.[20][19] In 2009 he also predicted that the US government would take over and nationalize a number of large banks; it did not happen.[21] In October 2009 he predicted that the price of gold «can go above $1,000, but it can’t move up 20-30%”; he was wrong, as the price of gold rose over the next 18 months, breaking through the $1,000 barrier to over $1,400.[22]

2020 Global Growth — At the end of 2019 the International Monetary Fund estimated global growth in 2020 to reach 3.4%, but as a result of the coronavirus pandemic, the IMF have revised its estimate in November 2020 to expect the global economy to shrink by 4.4%.[23][24]

See also[edit]

  • Calculating demand forecast accuracy
  • Errors and residuals in statistics
  • Forecasting
  • Forecasting accuracy
  • Mean squared prediction error
  • Optimism bias
  • Reference class forecasting

References[edit]

  1. ^ 2.5 Evaluating forecast accuracy | OTexts. Retrieved 2016-05-12.
  2. ^ J. Scott Armstrong (2001). «Combining Forecasts». Principles of Forecasting: A Handbook for Researchers and Practitioners (PDF). Kluwer Academic Publishers.
  3. ^ J. Andreas Graefe; Scott Armstrong; Randall J. Jones, Jr.; Alfred G. Cuzán (2010). «Combining forecasts for predicting U.S. Presidential Election outcomes» (PDF).
  4. ^ Brown, Lawrence D. (1996). «Analyst Forecasting Errors and Their Implications for Security Analysis: An Alternative Perspective». Financial Analysts Journal. 52 (1): 40–47. doi:10.2469/faj.v52.n1.1965. ISSN 0015-198X. JSTOR 4479895. S2CID 153329250.
  5. ^ Brown, Lawrence D. (1997). «Analyst Forecasting Errors: Additional Evidence». Financial Analysts Journal. 53 (6): 81–88. doi:10.2469/faj.v53.n6.2133. ISSN 0015-198X. JSTOR 4480043. S2CID 153810721.
  6. ^ Tamura, Hiromichi (2002). «Individual-Analyst Characteristics and Forecast Error». Financial Analysts Journal. 58 (4): 28–35. doi:10.2469/faj.v58.n4.2452. ISSN 0015-198X. JSTOR 4480404. S2CID 154943363.
  7. ^ «Michael Fish revisits 1987’s Great Storm». BBC. 16 October 2017. Retrieved 16 October 2017.
  8. ^ Helaine Olen (March 30, 2009). «The Prime of Mr. Nouriel Roubini», Entrepreneur.
  9. ^ Jerry H. Tempelman (July 30, 2014). «Austrian Business Cycle Theory and the Global Financial Crisis: Confessions of a Mainstream Economist,» The Quarterly Journal of Austrian Economics]
  10. ^ «The Economic Crisis and the Crisis in Economics». www.eatonak.org.
  11. ^ Bezemer, Dirk J, 16 June 2009. «“No One Saw This Coming”: Understanding Financial Crisis Through Accounting Models»
  12. ^ British Academy-The Global Financial Crisis Why Didn’t Anybody Notice?-Retrieved July 27, 2015 Archived July 7, 2015, at the Wayback Machine
  13. ^ Chen, Xiaoping; Shao, Yuchen (2017-09-11). «Trade policies for a small open economy: The case of Singapore». The World Economy. doi:10.1111/twec.12555. ISSN 0378-5920. S2CID 158182047.
  14. ^ Subler, Jason (2009-01-02). «Factories slash output, jobs around world». Reuters. Retrieved 2020-09-20.
  15. ^ a b Joe Keohane (January 9, 2011). «That guy who called the big one? Don’t listen to him.» The Boston Globe.
  16. ^ Eric Tyson (2018). Personal Finance For Dummies
  17. ^ Maneet Ahuja (2014). The Alpha Masters; Unlocking the Genius of the World’s Top Hedge Funds
  18. ^ «Roubini to Cramer: ‘Just shut up’», The Los Angeles Times, April 8, 2009.
  19. ^ a b Daniel Altman (October 8, 2012). «Nouriel Roubini; He may not be perfect, but there’s never been a better time to be in the prophet of doom business,» Foreign Policy Magazine.
  20. ^ Nouriel Roubini (June 16, 2009). «Financial Gain, Economic Pain,» Project Syndicate.
  21. ^ Joseph Lazzaro (March 26, 2009). «‘Dr. Doom’ predicts some big banks will be nationalized,» AOL.com.
  22. ^ Alice Guy (January 16, 2023). «Seven times the experts got it very wrong on the economy,» Interactive Investor.
  23. ^ «IMF warns world growth slowest since financial crisis». BBC News. 2019-10-15. Retrieved 2020-11-22.
  24. ^ «IMF: Economy ‘losing momentum’ amid virus second wave». BBC News. 2020-11-19. Retrieved 2020-11-22.

Пусть
получены
оценки
параметров
уравнения
(7.11).
Задача
прогнозирования
заключается
в
определении
возможного
значения
(прогноза)
переменной
x,
объ-
ясняемой
этой
моделью,
при
некоторых
заданных
значениях
факторов
z,
которые
не
совпадают
ни
с
одним
из
наблюдений
в
матрице
Z
.
Более
того,
как
прави-
ло,
z
лежит
вне
области,
представляемой
матрицей
Z
.
При
этом
предполагается,

что
гипотезы
g1g3
по-прежнему
выполняются.

Обычно
термин
«прогнозирование»
используется
в
случае,
когда
наблюдения
i
=
1,
.
.
.
,
N
в
матрице
Z
даны
по
последовательным
моментам
(периодам)
вре-
мени,
и
заданные
значения
факторов
z,
для
которых
требуется
определить
прогноз
x,
относятся
к
какому-то
будущему
моменту
времени,
большему
N
(т.е.
z
лежит
вне
области,
представляемой
матрицей
Z
).

Методы
прогнозирования
могут
быть
различными.
Если
применяются
отно-
сительно
простые
статистические
методы,
как
в
данном
случае,
то
часто
исполь-
зуют
термин
«экстраполирование».
Если
аналогичная
задача
решается
для
z,
лежащих
внутри
области,
представляемой
наблюдениями
в
матрице
Z
(например,
для
«пропущенных»
по
каким-то
причинам
наблюдений),
то
используют
термин

«интерполирование».
Процедуры
экстраполирования
и
интерполирования
с
ис-
пользованием
модели
(7.11)
с
формальной
точки
зрения
одинаковы.

Итак,
задан
некоторый
zr

=
[zr1

···
zrn

1],
который
отличается
от
всех
zi
,

i
=
1,
.
.
.
,
N
(если
i

обозначает
момент
времени,
то
r
>
N
).

xr
=
zr
α
+
εr

истинное
значение
искомой
величины,

x0

r
=
zr
α

ожидаемое
значение,

xp

r
=
zr
a

искомый
(точечный)
прогноз.

Предполагаем,
что
гипотезы
g1g4
выполнены
как
для
i
=
1,
.
.
.
,
N
,
так
и
для
r
>
N
.

Это
линейный
(относительно
случайных
величин
X
)
прогноз:
xp
(7.26)
z
LX
,

r

= r

он
не
смещен
относительно
ожидаемого
значения
вслед
за
несмещенностью
a:

E
(xp)
=
x0.
Его
ошибка
εp
=
xr

xp

имеет
нулевое
математическое
ожидание

r r r r

и
дисперсию

σ2

p
=
σ

2
1+
zr
.ZtZ.1

z

r

t
, (7.63)

    1. Прогнозирование 245

которая
минимальна
на
множестве
всех
возможных
линейных
несмещенных
про-
гнозов.

εp

Действительно:

r
=
zr


a)+
εr
.

Поскольку
случайные
величины
a
и
εr

не
зависят
друг
от
друга,

σ2 p

2.

r

r
2

p
=
E
.r
)

=
E
(zr


a)(α

a)
zr
)+
E
.εr
.
=

=
zr
Mazr
+
σ2

(7.29)

2

=
σ

zr
(ZrZ)1
zr

.

r 1+ r

Эта
дисперсия
минимальна
среди
всех
возможных
дисперсий
линейных
несмещен-
ных
прогнозов
вслед
за
аналогичным
свойством
оценок
a.
Это
является
прямым
следствием
того,
что
оценки
МНК
относятся
к
классу
BLUE.
Для
того
чтобы
в
этом

убедиться,
достаточно
в
доказательстве
данного
свойства
оценок
a,
которое
приве-
дено
в
п.
7.2,
заменить
cr

на
zr
.

i

Следует
иметь
в
виду,
что
ошибка
любого
расчетного
по
модели
значения
xc,
являясь
формально
такой
же:
εc
=
xi

xc,
имеет
также
нулевое
математическое

i i

ожидание,
но
принципиально
другую,
существенно
меньшую,
дисперсию:

σ2

i
=
σ

2
1

zi
.ZtZ.1

t

z

.

i

Видно,
что
эта
дисперсия
даже
меньше
остаточной.

i

Действительно,
как
и
прежде:
εc
=
zi


a)+
εi
.
Но
теперь
случайные
величины

a
и
εi

коррелированы
и
поэтому:

σ2

i
=
σ

2
1+
zi
(ZrZ)1

r

←−−−→

+
2ziE((α

a)
εi)

(7.27)

=

Lε

g4

2

E(εεi
)
=
σ
oi
,

где
oi

iй
орт

=

z

i

=
σ2
1+
zi
(ZrZ)1
zr

2zi
(ZrZ)1
zr
=
σ2
1

zi
(ZrZ)1
zr
.

i i i

i

Величины
1

zi
(ZrZ)1
zr
(i
=
1,
.
.
.
,
N
),
естественно,
неотрицательны,
посколь-
ку
они
являются
диагональными
элементами
матрицы
B
из
(7.32),
которая
поло-
жительно
полуопределена.

Структуру
дисперсии

ошибки

прогноза

(7.63)
можно

пояснить

на

примере
n
=
1.
В
этом
случае
(используются
обозначения
исходной
формы
уравнения
ре-
грессии,
и
все
z

одномерные
величины):

.

σ2 2

1 (zr

z¯)2
.

i

p
=
σ

1+ +

N


zˆ2

. (7.64)

246 Глава
7.

Основная
модель
линейной
регрессии

В
этом
легко
убедиться,
если
перейти
к
обозначениям
исходной
формы
урав-
нения
регрессии,
подставить
в
(7.63)
вместо

zr

и

Z
,
соответственно,
.zr 1.

и
.Z 1N
.
и
сделать
необходимые
преобразования
(правило
обращения
матрицы

(2
×
2)
см.
в
Приложении
A.1.2),
учитывая,
что

−1

ξ ξ

 

1 ξ ξ


1 2

 

=

4

i

ξ1ξ4

ξ2ξ3

2 и

ZrZ
=

zˆ2
+
N
z¯2
:

ξ3 ξ4

−ξ3 ξ1

  1



σ2 2

. .
ZrZ N
z¯

zr =

p
=
σ

1+

zr 1

N
z¯

 



 



N
1

z

 



=
σ2
1+ 1 .

. 1 z¯



r

=

ZrZ

N
z¯

zr 1





. 2 1

z¯

2

1
ZrZ 1

N

2.
. . 2
.

=
σ2

zr

2z¯zr
+
N
.
zˆi
+
N
z¯

i

1+
zˆ2

=
σ2

1

1+ +

N

(zr

z¯) .

i


zˆ2

Что
и
требовалось
доказать.

Это
выражение
показывает
«вклады»
в
дисперсию
ошибки
прогноза
собствен-
но
остаточной
дисперсии,
ошибки
оценки
свободного
члена
и
ошибки
оценки
угло-
вого
коэффициента.
Первые
две
составляющие
постоянны
и
не
зависят
от
горизон-
та
прогнозирования,
т.е.
от
того,
насколько
сильно
условия
прогноза

частности,
значение

zr
)
отличаются
от
условий,
в
которых
построена
модель

частности,

значение

z¯).
Третья
составляющая

ошибка
оценки
углового
коэффициента

определяет
расширяющийся
конус
ошибки
прогноза.

Мы
рассмотрели
точечный
прогноз.
Если
дополнительно
к
гипотезам
g1g4
предположить
выполнение
гипотезы
g5
для
i
=
1,
.
.
.
,
N
и
для
r
>
N
,
то
можно
построить
также
интервальный
прогноз.

По
формуле
(7.27)
ошибка
прогноза
имеет
вид:

εp

r
=
zr


a)+
εr
=
zr
Lε
+
εr
.

Таким
образом,
она
имеет
нормальное
распределение:

εp p
2

r
=
xr

xr

N
(0,
σp
).

Если
бы
дисперсия
ошибки
σ2

была
известна,
то
на
основе
того,
что

xr

xp

r

σp

N
(0,
1),

    1. Упражнения
      и
      задачи 247

для
xr
можно
было
бы
построить
(1

θ)100-процентный
прогнозный
интервал:

Таблица
7.1

xr

[xp
±
σpεˆ1

θ
]
.

X

Z1

Z2

65.7

26.8

541

74.2

25.3

616

74

25.3

610

66.8

31.1

636

64.1

33.3

651

67.7

31.2

645

70.9

29.5

653

69.6

30.3

682

67

29.1

604

68.4

23.7

515

70.7

15.6

390

69.6

13.9

364

63.1

18.8

411

48.4

27.4

459

55.1

26.9

517

55.8

27.7

551

58.2

24.5

506

64.7

22.2

538

73.5

19.3

576

68.4

24.7

697

r

2 2 t

−1

t

Вместо
неизвестной
дисперсии
σp
=
σ

берется
несмещенная
оценка

(1+
zr
(Z
Z)

zr
)

s2 2

t −1

t

p
=
sˆe
(1
+
zr
(Z
Z)

zr
).

По
аналогии
с
(7.44)
можно
вывести,
что

xr

xp

r

sp

tN
n

−1.

Тогда
в
приведенной
формуле
прогнозного
интервала
необ-
ходимо
заменить
σp

на
sp

и
εˆ1θ

на
tˆN
n1,
1θ
:

xr

.
p ..

xr
±
sptˆN
n1,
1θ

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

На практике вычисление страхового запаса и точки заказа обычно проводится на основе нормального распределения без каких-либо проверок распределения на нормальность. Величина ошибки страхового запаса вследствие отклонения распределения вероятностей ошибки прогноза от нормального будет зависеть от степени этого отклонения. Для того чтобы оценить эту ошибку, необходимо получить распределение вероятностей ошибки прогноза спроса за время задержки пополнения. Если это распределение уже получено, то можно вычислить размер страхового запаса на его основе, не пользуясь нормальным распределением. В данном пункте мы рассмотрим вычисление страхового запаса на числовом примере.

Пусть в результате обработки файла ошибок прогноза была получена таблица частот, приведенная в таблице 1.8. Количество наблюдений равно 103.

Таблица 1.8 – Эмпирическое распределение ошибки прогноза оптового спроса на растворимый кофе в килограммах

Интер-

валы значе-

ний ошибки прогноза

спроса

-17 –

-12

-12 –

-7

-7 –

-2

-2 –

3

3 –

8

8 –

13

13 –

18

18 –

23

23 –

28

28 –

33

Часто-

ты

11

19

22

23

11

8

5

2

1

1

Отно-

ситель-

ные частоты

0,107

0,184

0,214

0,223

0,107

0,078

0,049

0,019

0,01

0,01

Соответствующая этим данным гистограмма распределения ошибки приведена на рисунке 1.13. По оси абсцисс отложены интервалы значений ошибки прогноза. По оси ординат – число попаданий в каждый интервал.

Среднее квадратическое отклонение ошибки прогноза, рассчитанное по этим данным, составило 9,5. Среднее значение ошибки оказалось равным –0,97, но для упрощения рассуждений мы будем считать его равным нулю.

Как уже было описано в предыдущем пункте, точка заказа может быть представлена как сумма среднего спроса за время пополнения и страхового запаса:

где R – точка заказа,

– прогноз спроса за время пополнения;

SS – страховой запас.

От величины страхового запаса зависит средний (ожидаемый) дефицит в каждом цикле пополнения; чем больше страховой запас, тем меньше дефицит. Величина дефицита является случайной, зависящей от спроса за время пополнения: 

 где SL – величина дефицита;

d – спрос за время пополнения, случайная величина.

Подставим сюда выражение для точки заказа R и получим:

где разность между фактическим спросом d и его прогнозом  – это и есть ошибка прогноза Δd, эмпирическое распределение которой приведено в таблице 1.8. Перепишем это выражения, используя для ошибки прогноза ее обозначение:

Чтобы получить ожидаемое значение дефицита, то есть математическое ожидание, надо воспользоваться формулой для математического ожидания дискретной случайной величины:

где  – математическое ожидание дефицита (средний дефицит) при значении точки заказа, равном R;

Δd – ошибка прогноза спроса за время пополнения;

 – величина дефицита при значении ошибки прогноза, равном Δd;

 – вероятность (относительная частота) появления значения Δd.

Наша непрерывная случайная величина – ошибка прогноза – стала дискретной по той причине, что при построении эмпирического распределения мы группируем значения непрерывной случайной величины по интервалам (см. таблицу 1.8) и всем наблюдениям, попавшим в определенный интервал, присваивается значение, равное середине этого интервала.

Подставим в (1.14) выражение для дефицита (1.13) и получим:

В качестве значений ошибки прогноза Δd следует брать середины интервалов на оси абсцисс гистограммы распределения ошибки прогноза. В таблице 1.8 этими серединами будут –14,5; –9,5; –4,5; 0,5; 5,5; 9,5; 10,5; 15,5; 20,5; 25,5; 30,5. Вычисление дефицита  будем проводить для значений SS, равных левой (нижней) границе каждого интервала гистограммы, то есть для SS = –17, –12, –8 и т. д. Результаты вычислений приведены в таблице 1.9. Обозначения в таблице:

, эмпир. – средний дефицит, вычисленный с использованием эмпирического распределения ;

, норм. – средний дефицит, вычисленный с использованием нормального распределения ошибки прогноза, он равен σE(Z);

 – страховой запас, отнесенный к среднеквадратическому отклонению ошибки прогноза (используется для расчета ожидаемого дефицита при нормальном распределении ошибки прогноза);

Pд, эмпир. – вероятность дефицита, вычисленная с использованием эмпирического распределения ;

Рд, норм. – вероятность дефицита, вычисленная с использованием нормального распределения ;

SL %, эмпир. – уровень обслуживания, вычисленный с использованием эмпирического распределения ;

SL, %, норм. – уровень обслуживания, вычисленный с использованием нормального распределения.

Таблица 1.9 – сравнение вероятностей дефицита и уровней обслуживания, вычисленных с использованием нормального и эмпирического распределений

SS

-17

-12

-7

-2

3

8

13

18

23

28

15,95

11,21

7,21

4,20

2,28

1,19

0,56

0,24

0,10

0,02

Z

-1,79

-1,26

-0,74

-0,21

0,32

0,84

1,37

1,89

2,42

2,95

σE(Z)

17,23

12,36

8,37

4,81

2,54

1,05

0,39

0,10

0,03

0,00

Pд, эмпир.

1,00

0,894

0,710

0,496

0,273

0,166

0,088

0,039

0,020

0,010

Рд, норм.

0,963

0,896

0,770

0,583

0,377

0,200

0,085

0,029

0,007

0,002

SL %, эмпир.

81,2

86,8

91,5

95,0

97,3

98,6

99,3

99,7

99,90

99,98

SL, %, норм.

79,7

85,4

90,1

94,3

97,0

98,8

99,5

99,90

99,96

99,99

Объем заказа Q = 85, среднеквадратическое отклонение ошибки прогноза равно 9,5.

Распределение ошибки прогноза весьма заметно отличается от нормального. Тем не менее сравнение вычисленных вероятностей дефицита для эмпирического распределения и для нормального распределения показывает, что с практической точки зрения эти вероятности мало отличаются. В самом деле, между вероятностями отсутствия дефицита (это 1 – Pд) нет заметной разницы при всех значениях страхового запаса SS, начиная с 13 и выше. Так, для SS = 13 эти вероятности равны 0,912 и 0,915. Это значит, что дефицита не будет наблюдаться в среднем в 912 циклах пополнения из 1000 или в 915. Столь же незначительно отличаются и уровни обслуживания, вычисленные с использованием эмпирического и нормального распределений. Конечно, при меньших размерах заказа различие в уровнях обслуживания может оказаться существенным. Но в нашем примере размер заказа Q равен 85, среднеквадратическая ошибка прогноза равна 9,5, а их отношение равно 8,94. Очевидно, что при больших значениях этого отношения совпадение будет еще лучше.

Приведенный пример позволяет сделать вывод о том, что даже при значительных отклонениях распределения ошибки прогнозирования от нормального можно использовать значения страхового запаса, рассчитанные с использованием нормального распределения. Тем не менее, желательно всегда проверять степень расхождения значений ожидаемого уровня обслуживания, вычисленных с использованием эмпирического и нормального распределений, подобно тому, как это сделано в таблице 1.9.

Что такое ошибка прогноза в статистике? (Определение и примеры)

  • Редакция Кодкампа


читать 2 мин


В статистике ошибка прогнозирования относится к разнице между прогнозируемыми значениями, сделанными некоторой моделью, и фактическими значениями.

Ошибка прогноза часто используется в двух случаях:

1. Линейная регрессия: используется для прогнозирования значения некоторой переменной непрерывного отклика.

Обычно мы измеряем ошибку прогноза модели линейной регрессии с помощью метрики, известной как RMSE , что означает среднеквадратичную ошибку.

Он рассчитывается как:

СКО = √ Σ(ŷ i – y i ) 2 / n

куда:

  • Σ — это символ, который означает «сумма»
  • ŷ i — прогнозируемое значение для i -го наблюдения
  • y i — наблюдаемое значение для i -го наблюдения
  • n — размер выборки

2. Логистическая регрессия: используется для прогнозирования значения некоторой бинарной переменной отклика.

Одним из распространенных способов измерения ошибки прогнозирования модели логистической регрессии является метрика, известная как общий коэффициент ошибочной классификации.

Он рассчитывается как:

Общий коэффициент ошибочной классификации = (# неверных прогнозов / # всего прогнозов)

Чем ниже значение коэффициента ошибочной классификации, тем лучше модель способна предсказать результаты переменной отклика.

В следующих примерах показано, как на практике рассчитать ошибку прогнозирования как для модели линейной регрессии, так и для модели логистической регрессии.

Пример 1: Расчет ошибки прогноза в линейной регрессии

Предположим, мы используем регрессионную модель, чтобы предсказать количество очков, которое 10 игроков наберут в баскетбольном матче.

В следующей таблице показаны прогнозируемые очки по модели и фактические очки, набранные игроками:

Мы рассчитали бы среднеквадратичную ошибку (RMSE) как:

  • СКО = √ Σ(ŷ i – y i ) 2 / n
  • СКО = √(((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12- 16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10)
  • СКО = 4

Среднеквадратическая ошибка равна 4. Это говорит нам о том, что среднее отклонение между прогнозируемыми набранными баллами и фактическими набранными баллами равно 4.

Связанный: Что считается хорошим значением RMSE?

Пример 2: Расчет ошибки прогноза в логистической регрессии

Предположим, мы используем модель логистической регрессии, чтобы предсказать, попадут ли 10 баскетболистов из колледжа в НБА.

В следующей таблице показан прогнозируемый результат для каждого игрока по сравнению с фактическим результатом (1 = выбран на драфте, 0 = не выбран на драфте):

Мы рассчитали бы общий коэффициент ошибочной классификации как:

  • Общий коэффициент ошибочной классификации = (# неверных прогнозов / # всего прогнозов)
  • Общий коэффициент ошибочной классификации = 4/10
  • Общий коэффициент ошибочной классификации = 40%

Общий уровень ошибочной классификации составляет 40% .

Это значение довольно велико, что указывает на то, что модель не очень хорошо предсказывает, будет ли игрок выбран на драфте.

Дополнительные ресурсы

Следующие руководства содержат введение в различные типы методов регрессии:

Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Введение в логистическую регрессию

Понравилась статья? Поделить с друзьями:
  • Обожжешь руку морфологическая ошибка
  • Обогреватель электрический электролюкс ошибка е1
  • Обогреватель термекс ошибка е1
  • Обновление mbr не удалось winclone ошибка
  • Обогреватель прамотроник ошибки