Как посчитать статистическую ошибку

Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.

Статистическая погрешность: чуть подробнее

Предположим, что ваш детектор может очень точно измерить какую-то величину в каждом конкретном столкновении. Это может быть энергия или импульс какой-то родившейся частицы, или дискретная величина (например, сколько мюонов родилось в событии), или вообще элементарный ответ «да» или «нет» на какой-то вопрос (например, родилась ли в этом событии хоть одна частица с импульсом больше 100 ГэВ).

Это конкретное число, полученное в одном столкновении, почти бессмысленно. Скажем, взяли вы одно событие и выяснили, что в нём хиггсовский бозон не родился. Никакой научной пользы от такого единичного факта нет. Законы микромира вероятностны, и если вы организуете абсолютно такое же столкновение протонов, то картина рождения частиц вовсе не обязана повторяться, она может оказаться совсем другой. Если бозон не родился сейчас, не родился в следующем столкновении, то это еще ничего не говорит о том, может ли он родиться вообще и как это соотносится с теоретическими предсказаниями. Для того, чтобы получить какое-то осмысленное число в экспериментах с элементарными частицами, надо повторить эксперимент много раз и набрать статистику одинаковых столкновений. Всё свое рабочее время коллайдеры именно этим и занимаются, они накапливают статистику, которую потом будут обрабатывать экспериментаторы.

В каждом конкретном столкновении результат измерения может быть разный. Наберем статистику столкновений и усредним по ней результат. Этот средний результат, конечно, тоже не фиксирован, он может меняться в зависимости от статистики, но он будет намного стабильнее, он не будет так сильно прыгать от одной статистической выборки к другой. У него тоже есть некая неопределенность (в статистическом анализе она так и называется: «неопределенность среднего»), но она обычно небольшая. Вот эта величина и называется статистической погрешностью измерения.

Итак, когда экспериментаторы предъявляют измерение какой-то величины, то они сообщают результат усреднения этой величины по всей набранной статистике столкновений и сопровождают его статистической погрешностью. Именно такие средние значения имеют физический смысл, только их может предсказывать теория.

Есть, конечно, и иной источник статистической погрешности: недостаточный контроль условий эксперимента при повторном измерении. Если в физике частиц этот источник можно попытаться устранить, по крайней мере, в принципе, то в других разделах естественных наук он выходит на первый план; например, в медицинских исследованиях каждый человек отличается от другого по большому числу параметров.

Как считать статистическую погрешность?

Существует теория расчета статистической погрешности, в которую мы, конечно, вдаваться не будем. Но есть одно очень простое правило, которое легко запомнить и которое срабатывает почти всегда. Пусть у вас есть статистическая выборка из N столкновений и в ней присутствует n событий какого-то определенного типа. Тогда в другой статистической выборке из N событий, набранной в тех же условиях, можно ожидать примерно n ± √n таких событий. Поделив это на N, мы получим среднюю вероятность встретить такое событие и погрешность среднего: n/N ± √n/N. Оценка истинного значения вероятности такого типа события примерно соответствует этому выражению.

Сразу же, впрочем, подчеркнем, что эта простая оценка начинает сильно «врать», когда количество событий очень мало. В науке обсчета маленькой статистики есть много дополнительных тонкостей.

Более серьезное (но умеренно краткое) введение в методы статистической обработки данных в применении к экспериментам на LHC см. в лекциях arXiv.1307.2487.

Именно поэтому эксперименты в физике элементарных частиц стараются оптимизировать не только по энергии, но и по светимости. Ведь чем больше светимость, тем больше столкновений будет произведено — значит, тем больше будет статистическая выборка. И уже это позволит сделать измерения более точными — даже без каких-либо улучшений в эксперименте. Примерная зависимость тут такая: если вы увеличите статистику в k раз, то относительные статистические погрешности уменьшатся примерно в √k раз.

Этот пример — некая симуляция того, как могло бы происходить измерение массы ρ-мезона свыше полувека назад, на заре адронной физики, если бы он был вначале обнаружен в процессе e+e → π+π. А теперь перенесемся в наше время.

Рис. 3. Сечение процесса e+e– → π+π– в области энергий от 700 до 850 МэВ, в которой четко проступают ρ-мезон и ω-мезон

Сейчас этот процесс изучен вдоль и поперек, статистика набрана огромная (миллионы событий), а значит, и масса ρ-мезона сейчас определена несравнимо точнее. На рис. 3 показано современное состояние дел в этой области масс. Если ранние эксперименты еще имели какие-то существенные погрешности, то сейчас они практически неразличимы глазом. Огромная статистика позволила не только измерить массу (примерно равна 775 МэВ с точностью в десятые доли МэВ), но и заметить очень странную форму этого пика. Такая форма получается потому, что практически в том же месте на шкале масс находится и другой мезон, ω(782), который «вмешивается» в процесс и искажает форму ρ-мезонного пика.

Другой, гораздо более реальный пример влияния статистики на процесс поиска и изучения хиггсовского бозона обсуждался в новости Анимации показывают, как в данных LHC зарождался хиггсовский сигнал.

Company

Калькулятор ошибки выборки

Рассчитать статистическую ошибку и размер выборки

Для показателей, измеренных напрямую (доля тех, кому соответствует измеряемый признак).

Введены некорректные данные

Объем выборки
Количество людей, которых опросили для оценки доли.

Доля признака
Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют, необходимо использовать значение равное 50, при котором достигается максимальная ошибка.

Уровень значимости
Вероятность того, что реальная доля признака лежит в границах полученного доверительного интервала. Уровень значимости выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно 95%.

Для индекса NPS (рассчитывается как разница долей промоутеров и детракторов/критиков).

Введены некорректные данные

Объем выборки
Количество людей, которых опросили для оценки доли.

Доля промоутеров
Доля людей, выбравших в вопросе о намерении рекомендовать ответы 9-10.

Уровень значимости
Вероятность того, что реальная доля признака лежит в границах полученного доверительного интервала. Уровень значимости выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно 95%.

Доля детракторов
Доля людей, выбравших в вопросе о намерении рекомендовать ответы 1-6 или 0-6, если в шкале есть 0.

125315, г. Москва, Ленинградский проспект 68, стр. 2, 3 этаж
+7 (495) 648 78 20
client@tiburon-research.ru

Статистические виды погрешностей.

Три
вида погрешности:


вероятностная (равновероятная)


средняя арифметическая


среднеквадратичная

Вероятностная
– погрешность, для которой выполняется
условие: половина всех погрешностей,
меньше ее, по абсолютной величине, а
половина больше. Обозначается

Средняя
арифметическая погрешность

– средняя арифметическая погрешность,
полученная из всех погрешностей.


.

Для
нормального распределения можем написать
некоторый доверительный интервал

и
соответствующую ему доверительную
вероятность


.
В
доверительный интервал попадает всего

всех
допущенных погрешностей. 32% в него не
попадают.

.
Это
не полная таблица всех погрешностей.
Треть погрешностей лежит вне этого
коридора. Иногда его расширяют. Если
расширим интервал до

,
то
тогда в него попадет очень много

.

За

измерение
вылетать не должно.

Преимущества:


с помощью

легко
отделить промахи

чувствительна
к наличию больших отклонений


средне квадратичная погрешность надежно
определяется для коротких рядов

Если
распределение близко к нормальному, то
для СКО легко перейти к определению
погрешности для коротких рядов.



распределение
близко к нормальному.

Оценка точности результата

Погрешность
ряда измерений и погрешность одного
измерения – синонимы. В отличие от
погрешности результата.

Результат
– среднее арифметическое из некоего
ряда.

тоже
будет обладать погрешностью Погрешность
будет подчиняться всем статистическим
законам.

Пусть
провели

измерений
параметра

и
получили

значений


,
тогда

Постоянный
член можно выносить за знак дисперсии.

=

Так
как все измерения равноточны

=

Если
представить с j,
то
для погрешности результата

Если
выражаем все через остаточную погрешность,
то

Если
характеризуем каждое измерение, то
погрешность отдельного измерения или
погрешность ряда. Если провели n
измерений,
усреднили, и посчитали погрешность, то
это погрешность результата. Чем больше
n,
тем
более сильно погрешность результата
отличается от погрешности отдельного
измерения или погрешности ряда.

Цель
экспериментатора – уменьшить погрешности
результата.

Для
этого:

-покупать
дорогие приборы, строить новую установку.
В целом это все уменьшение

.


увеличивать число измерений. Никакое
увеличение количества измерений не
приведет к уменьшению систематической
погрешности.

Некоторые указания при вычислениях.

1)
Точность результата измерений должна
определяться точностью исходных
экспериментальных данных, а она точностью
СИ.

2)
Погрешность результата выражается, как
правило, одним значащим числом. В особо
точных измерениях три, но не больше.

3)
Количество знаков в результате последнего
и в погрешности должны совпадать.

4)
Ошибки, получающиеся в результате
промежуточных измерений, должна быть
на порядок меньше ошибки исходных
данных.

????

????
Лекция пропущена


,
,
(2)

В
этом случае


(3)


(4),

ошибки,
которые зависят от вида модели.

Распишем

Наша
задача найти оптимальные параметры,
чтобы функция, зависящая от них давала
оптимальную аппроксимацию (когда сумма
квадратов от ошибок будет минимальная).


(6)


(7)

Нужно
найти экстремум этой функции. Нужно
продифференцировать по каждому значению
и приравнять каждое из полученных
значений к нулю.

Получаем:


(8)

Раскрываем
скобки:


(9)

Это
система линейных уравнений относительно
параметров
.
Значит
ее можно решать.

Перепишем:


(10)

Будем
решать:


,
,
(11)


(12)

Введем
также конструкционную (структурную)
матрицу. Имеет n
строк
и r
столбцов,
r<<n.


(13)


(14)

(15)

Запишем
уравнения (5,6,7) в матричной форме:


(16)


(17)


(18)

(19)

Дальше
будем дифференцировать
раз
по каждому из
.
Получим
систему уравнений, которую тоже можно
записать в виде суммы двух матриц
столбцов.

(т.к.
нужен экстремум) (20)

Умножим
на


(21)


(22)

это
и есть то, что поучилось в конечном
итоге. Определенные значение
дадут
минимальные отклонения экспериментальных
данных от аппроксимирующего полинома
(1) с заданными функциями
.
Задача
решена. Однако, само значения функции
существенно зависит от этих функций. И
часто оказывается что

нас
не устраивает. Т.е. величина, которую мы
нашли как среднеквадратичное отклонение
оказывается больше, чем нам хотелось
бы. Получили решение в матричном виде.
Y
знаем.
Конструкционная матрица А – функция
от аргументов. Все можно загнать в
матрицу и решить уравнение.


(23)
оказывается большим, чем погрешность
измерений. Тогда придется изменять вид
функции
.

Если
надо аппроксимировать различные по
величине значения, тогда применяют
логарифмирование

(1)

Ну
а дальше может быть любой из рядов

Например,
мы однозначно знаем что модель только
положительна.

Если
х разные, то может быть такая модель:

(2)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Генеральная совокупность
Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей:- Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)- Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)- Юридические лица России (2,2 млн. на начало 2005 года)- Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)
Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки
Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.Пример:- Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы. — Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.- Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.Пример:Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)
Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.Пример:Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.Пример:- Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).- Проблема респондентов, отказывающихся отвечать на вопросы анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок
Выборки делятся на два типа:
— вероятностные
— невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.


Загрузить PDF


Загрузить PDF

Стандартной ошибкой называется величина, которая характеризует стандартное (среднеквадратическое) отклонение выборочного среднего. Другими словами, эту величину можно использовать для оценки точности выборочного среднего. Множество областей применения стандартной ошибки по умолчанию предполагают нормальное распределение. Если вам нужно рассчитать стандартную ошибку, перейдите к шагу 1.

  1. Изображение с названием Calculate Standard Error Step 1

    1

    Запомните определение среднеквадратического отклонения. Среднеквадратическое отклонение выборки – это мера рассеянности значения. Среднеквадратическое отклонение выборки обычно обозначается буквой s. Математическая формула среднеквадратического отклонения приведена выше.

  2. Изображение с названием Calculate Standard Error Step 2

    2

    Узнайте, что такое истинное среднее значение. Истинное среднее является средним группы чисел, включающим все числа всей группы – другими словами, это среднее всей группы чисел, а не выборки.

  3. Изображение с названием Calculate Standard Error Step 3

    3

    Научитесь рассчитывать среднеарифметическое значение. Среднеаримфетическое означает попросту среднее: сумму значений собранных данных, разделенную на количество значений этих данных.

  4. Изображение с названием Calculate Standard Error Step 4

    4

    Узнайте, что такое выборочное среднее. Когда среднеарифметическое значение основано на серии наблюдений, полученных в результате выборок из статистической совокупности, оно называется “выборочным средним”. Это среднее выборки чисел, которое описывает среднее значение лишь части чисел из всей группы. Его обозначают как:

  5. Изображение с названием Calculate Standard Error Step 5

    5

    Усвойте понятие нормального распределения. Нормальные распределения, которые используются чаще других распределений, являются симметричными, с единичным максимумом в центре – на среднем значении данных. Форма кривой подобна очертаниям колокола, при этом график равномерно опускается по обе стороны от среднего. Пятьдесят процентов распределения лежит слева от среднего, а другие пятьдесят процентов – справа от него. Рассеянность значений нормального распределения описывается стандартным отклонением.

  6. Изображение с названием Calculate Standard Error Step 6

    6

    Запомните основную формулу. Формула для вычисления стандартной ошибки приведена выше.

    Реклама

  1. Изображение с названием Calculate Standard Error Step 7

    1

    Рассчитайте выборочное среднее. Чтобы найти стандартную ошибку, сначала нужно определить среднеквадратическое отклонение (поскольку среднеквадратическое отклонение s входит в формулу для вычисления стандартной ошибки). Начните с нахождения средних значений. Выборочное среднее выражается как среднее арифметическое измерений x1, x2, . . . , xn. Его рассчитывают по формуле, приведенной выше.

    • Допустим, например, что вам нужно рассчитать стандартную ошибку выборочного среднего результатов измерения массы пяти монет, указанных в таблице:
      Вы сможете рассчитать выборочное среднее, подставив значения массы в формулу:
  2. Изображение с названием Calculate Standard Error Step 8

    2

    Вычтите выборочное среднее из каждого измерения и возведите полученное значение в квадрат. Как только вы получите выборочное среднее, вы можете расширить вашу таблицу, вычтя его из каждого измерения и возведя результат в квадрат.

    • Для нашего примера расширенная таблица будет иметь следующий вид:
  3. Изображение с названием Calculate Standard Error Step 9

    3

    Найдите суммарное отклонение ваших измерений от выборочного среднего. Общее отклонение – это сумма возведенных в квадрат разностей от выборочного среднего. Чтобы определить его, сложите ваши новые значения.

    • В нашем примере нужно будет выполнить следующий расчет:
      Это уравнение дает сумму квадратов отклонений измерений от выборочного среднего.
  4. Изображение с названием Calculate Standard Error Step 10

    4

    Рассчитайте среднеквадратическое отклонение ваших измерений от выборочного среднего. Как только вы будете знать суммарное отклонение, вы сможете найти среднее отклонение, разделив ответ на n -1. Обратите внимание, что n равно числу измерений.

    • В нашем примере было сделано 5 измерений, следовательно n – 1 будет равно 4. Расчет нужно вести следующим образом:
  5. Изображение с названием Calculate Standard Error Step 11

    5

    Найдите среднеквадратичное отклонение. Сейчас у вас есть все необходимые значения для того, чтобы воспользоваться формулой для нахождения среднеквадратичного отклонения s.

    • В нашем примере вы будете рассчитывать среднеквадратичное отклонение следующим образом:
      Следовательно, среднеквадратичное отклонение равно 0,0071624.

    Реклама

  1. Изображение с названием Calculate Standard Error Step 12

    1

    Чтобы вычислить стандартную ошибку, воспользуйтесь базовой формулой со среднеквадратическим отклонением.

    • В нашем примере вы сможете рассчитать стандартную ошибку следующим образом:
      Таким образом в нашем примере стандартная ошибка (среднеквадратическое отклонение выборочного среднего) составляет 0,0032031 грамма.

Советы

  • Стандартную ошибку и среднеквадратическое отклонение часто путают. Обратите внимание, что стандартная ошибка описывает среднеквадратическое отклонение выборочного распределения статистических данных, а не распределения отдельных значений
  • В научных журналах понятия стандартной ошибки и среднеквадратического отклонения несколько размыты. Для объединения двух величин используется знак ±.

Реклама

Об этой статье

Эту страницу просматривали 50 283 раза.

Была ли эта статья полезной?

Понравилась статья? Поделить с друзьями:
  • Как пофиксить вак ошибку кс го
  • Как посчитать функцию ошибок
  • Как посчитать стандартную ошибку коэффициента регрессии
  • Как посчитать среднюю ошибку средней арифметической
  • Как посчитать среднеквадратичную ошибку