Расчет сигмы и ошибки репрезентативности

В
статистике выделяют два основных метода
исследования — сплошной и выборочный.
При проведении выборочного исследования
обязательным является соблюдение
следующих требований: репрезентативность
выборочной совокупности и достаточное
число единиц наблюдений. При выборе
единиц наблюдения возможны ошибки
смещения
,
т.е. такие события, появление которых
не может быть точно предсказуемым. Эти
ошибки являются объектив­ными и
закономерными. При определении степени
точности выборочно­го исследования
оценивается величина ошибки, которая
может прои­зойти в процессе выборки
случайная
ошибка репрезентативности (
m)
является
фактической разностью между средними
или относительными величинами, полученными
при проведении выборочного исследования
и аналогичными величинами, которые были
бы получены при проведении исследования
на гене­ральной совокупности.

Оценка
достоверности результатов исследования
предусматривает определение:

1.
ошибки репрезентативности

2.
доверительных границ средних (или
относительных) величин в генеральной
совокупности

3.
достоверности разности средних (или
относительных) величин (по критерию t)

Расчет
ошибки репрезентативности

(mм)
средней арифмети­ческой величины
(М):

,
где σ
— среднее квадратическое отклонение; n
— численность выборки (>30).

Расчет
ошибки репрезентативности (mР)
относительной величины (Р):

,
где Р — соответствующая относительная
величина (рассчитанная, например, в %);

q
=100 — Ρ%
— величина, обратная Р; n
— численность выборки (n>30)

В
клинических и экспериментальных работах
довольно часто приходится использовать
малую
выборку,
когда
число наблюдений меньше или равно 30.
При малой выборке для расчета ошибок
репрезентатив­ности, как средних, так
и относительных величин,
число
наблюде­ний уменьшается на единицу,
т.е.

;
.

Величина
ошибки репрезентативности зависит от
объема выборки: чем больше число
наблюдений, тем меньше ошибка. Для оценки
достоверности выборочного показателя
принят следующий подход: показатель
(или средняя величина) должен в 3 раза
превышать свою ошибку, в этом случае он
считается достоверным.

83. Определение доверительных границ средних и относительных величин.

Знание
величины ошибки недостаточно для того,
чтобы быть уве­ренным в результатах
выборочного исследования, так как
конкрет­ная ошибка выборочного
исследования может быть значительно
больше (или меньше) величины средней
ошибки репрезентативности. Для
оп­ределения точности, с которой
исследователь желает получить ре­зультат,
в статистике используется такое понятие,
как вероят­ность безошибочного
прогноза, которая является характеристикой
надежности результатов выборочных
медико-биологических статистических
исследований. Обычно, при проведении
медико-биологических статистических
исследований используют вероятность
безошибочного прогноза 95% или 99%. В
наиболее ответственных случаях, когда
необходимо сделать особенно важные
выводы в теоретическом или практическом
отношении, используют вероятность
безошибочного прогноза 99,7%

Определенной
степени вероятности безошибочного
прогноза соот­ветствует определенная
величина предельной
ошибки случайной выборки (
Δ
— дельта)
,
которая определяется по формуле:

Δ=t
* m
, где t
— доверительный коэффициент, который
при большой выборке при вероятности
безо­шибочного прогноза 95% равен 2,6;
при вероятности безоши­бочного
прогноза 99% — 3,0; при вероятности
безошибочно­го прогноза 99,7% — 3,3, а при
малой выборке определяется по специальной
таблице значений t
Стьюдента.

Используя
предельную ошибку выборки (Δ),
можно определить до­верительные
границы
,
в которых с определенной вероятностью
безо­шибочного прогноза заключено
действительное значение статистичес­кой
величины,
характеризующей
всю генеральную совокупность (сред­ней
или относительной).

Для
определения доверительных границ
используются следующие формулы:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

В
статистике выделяют два основных метода
исследования — сплошной и выборочный.
При проведении выборочного исследования
обязательным является соблюдение
следующих требований: репрезентативность
выборочной совокупности и достаточное
число единиц наблюдений. При выборе
единиц наблюдения возможны ошибки
смещения
,
т.е. такие события, появление которых
не может быть точно предсказуемым. Эти
ошибки являются объектив­ными и
закономерными. При определении степени
точности выборочно­го исследования
оценивается величина ошибки, которая
может прои­зойти в процессе выборки
случайная
ошибка репрезентативности (
m)
является
фактической разностью между средними
или относительными величинами, полученными
при проведении выборочного исследования
и аналогичными величинами, которые были
бы получены при проведении исследования
на гене­ральной совокупности.

Оценка
достоверности результатов исследования
предусматривает определение:

1.
ошибки репрезентативности

2.
доверительных границ средних (или
относительных) величин в генеральной
совокупности

3.
достоверности разности средних (или
относительных) величин (по критерию t)

Расчет
ошибки репрезентативности

(mм)
средней арифмети­ческой величины
(М):

,
где σ
— среднее квадратическое отклонение; n
— численность выборки (>30).

Расчет
ошибки репрезентативности (mР)
относительной величины (Р):

,
где Р — соответствующая относительная
величина (рассчитанная, например, в %);

q
=100 — Ρ%
— величина, обратная Р; n
— численность выборки (n>30)

В
клинических и экспериментальных работах
довольно часто приходится использовать
малую
выборку,
когда
число наблюдений меньше или равно 30.
При малой выборке для расчета ошибок
репрезентатив­ности, как средних, так
и относительных величин,
число
наблюде­ний уменьшается на единицу,
т.е.

;
.

Величина
ошибки репрезентативности зависит от
объема выборки: чем больше число
наблюдений, тем меньше ошибка. Для оценки
достоверности выборочного показателя
принят следующий подход: показатель
(или средняя величина) должен в 3 раза
превышать свою ошибку, в этом случае он
считается достоверным.

83. Определение доверительных границ средних и относительных величин.

Знание
величины ошибки недостаточно для того,
чтобы быть уве­ренным в результатах
выборочного исследования, так как
конкрет­ная ошибка выборочного
исследования может быть значительно
больше (или меньше) величины средней
ошибки репрезентативности. Для
оп­ределения точности, с которой
исследователь желает получить ре­зультат,
в статистике используется такое понятие,
как вероят­ность безошибочного
прогноза, которая является характеристикой
надежности результатов выборочных
медико-биологических статистических
исследований. Обычно, при проведении
медико-биологических статистических
исследований используют вероятность
безошибочного прогноза 95% или 99%. В
наиболее ответственных случаях, когда
необходимо сделать особенно важные
выводы в теоретическом или практическом
отношении, используют вероятность
безошибочного прогноза 99,7%

Определенной
степени вероятности безошибочного
прогноза соот­ветствует определенная
величина предельной
ошибки случайной выборки (
Δ
— дельта)
,
которая определяется по формуле:

Δ=t
* m
, где t
— доверительный коэффициент, который
при большой выборке при вероятности
безо­шибочного прогноза 95% равен 2,6;
при вероятности безоши­бочного
прогноза 99% — 3,0; при вероятности
безошибочно­го прогноза 99,7% — 3,3, а при
малой выборке определяется по специальной
таблице значений t
Стьюдента.

Используя
предельную ошибку выборки (Δ),
можно определить до­верительные
границы
,
в которых с определенной вероятностью
безо­шибочного прогноза заключено
действительное значение статистичес­кой
величины,
характеризующей
всю генеральную совокупность (сред­ней
или относительной).

Для
определения доверительных границ
используются следующие формулы:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ И НАУКИ ГОРОДА МОСКВЫ

Государственное бюджетное профессиональное образовательное учреждение города Москвы

«ЮРИДИЧЕСКИЙ КОЛЛЕДЖ»

(ГБПОУ Юридический колледж)

ПЛАН-КОНСПЕКТ учебного занятия

по ОП.11 Статистика

учебной дисциплине/междисциплинарному курсу

для обучающихся 2 курса

специальность 40.02.01 Право и организация социального обеспечения

(набор 2016 г.)

(углубленная подготовка)

дата проведения занятия по расписанию

Тема 3.1. Выборочное наблюдение

Занятие 15.  ПЗ №8 Определение ошибки репрезентативности.

Определение объема выборочной совокупности

Цель занятия: отработать практические навыки по определению доверительных пределов и исчислению ошибок выборки 

Задачи занятия:

Обучающая: Обеспечить усвоение обучающимися материала о понятиях: ошибки репрезентативности, выборка, выборочная совокупность;

Воспитательная: воспитывать навыки самостоятельной работы, чувство ответственности за порученный участок работы, дисциплину  умственного труда, уверенность в своих силах, стремление к достижению результата;

Развивающая: создавать условия для развития самостоятельности мышления, способности высказывания собственной точки зрения, систематизировать необходимую информацию, анализировать, сравнивать и обобщать информацию, развивать монологическую речь.

Основная литература:

Глава 11. Выборочное наблюдение. (211-220) Статистика: учебник / И.В. Гладун. – 2-е издание, стер. – М.: КНОРУС, 2014. – 232 с. – СПО 

Дополнительная литература:

 Савюк Л.К. Правовая статистика: Учебник. — М.: Юрист, 2016

Интернет-ресурсы:

  1. Информационно-издательский центр «Статистика России» http://www.statbook.ru 
  2. Электронный фонд правовой и технической документации http://docs.cntd.ru 
  3. Информационно правовой портал http://www.garant.ru/

Междисциплинарные связи: Право социальное обеспечение

Внутридисциплинарные связи: Тема 2.1. Сводка и группировка статистических данных

1. Актуализация знаний по ранее пройденному материалу учебного курса

(ответить на вопросы (тестовые задания) и провести самооценку усвоенного материала)

Таблица 1.

Вопрос

(тестовое задание)

Ответ

  1. Задача сводки…
  1. дать характеристику объекту исследования с помощью запроектированных систем статистических показателей, выявить и измерить такие путем его существенные черты и особенности;
  2. дать характеристику объекту исследования с помощью запроектированных систем статистических показателей;
  3. выявить и измерить такие путем его существенные черты и особенности;
  4. подсчет общих и групповых итогов, получение системы взаимосвязанных показателей.
  1. Перегруппировка ранее сгруппированных данных статистического наблюдения называется:
  1. типологической группировкой;
  2. структурной группировкой;
  3. вторичной группировкой;
  4. аналитической группировкой.
  1. Плотность распределения – это
  1. частота, рассчитанная на единицу ширины интервала;
  2. количество единиц в ширине интервала;
  3. все верно;
  4. нет верного ответа.
  1. К атрибутивным группировочным признакам относятся:
  1. пол человека;
  2. возраст человека;
  3. среднедушевой доход семьи;
  4. правильного ответа нет.
  1. «Объем производства товаров и услуг», по временному фактору относятся к …
  1. моментному виду;
  2. интервальному виду;
  3. минутному виду;
  4. интенсивному виду.

2. Изучаемые вопросы занятия

1. Определение ошибки репрезентативности.

2. Определение объема выборочной совокупности.

Вопрос 1.        Определение ошибки репрезентативности

В статистике выделяют два основных метода исследования – сплошной и выборочный. При проведении выборочного исследования обязательным является соблюдение следующих требований: репрезентативность выборочной совокупности и достаточное число единиц наблюдений. При выборе единиц наблюдения возможны Ошибки смещения, т. е. такие события, появление которых не может быть точно предсказуемым. Эти ошибки являются объективными и закономерными. При определении степени точности выборочного исследования оценивается величина ошибки, которая может произойти в процессе выборки – Случайная ошибка репрезентативности (M) – Является фактической разностью между средними или относительными величинами, полученными при проведении выборочного исследования и аналогичными величинами, которые были бы получены при проведении исследования на генеральной совокупности.

Оценка достоверности результатов исследования предусматривает определение:

1. ошибки репрезентативности

2. доверительных границ средних (или относительных) величин в генеральной совокупности

3. достоверности разности средних (или относительных) величин (по критерию t)

Расчет ошибки репрезентативности (mм) средней арифметической величины (М):

https://uchenie.net/wp-content/uploads/2012/08/image142.pnghttps://uchenie.net/wp-content/uploads/2012/08/image143.png, где σ – среднее квадратическое отклонение; n – численность выборки (>30).

Расчет ошибки репрезентативности (mР) относительной величины (Р):

https://uchenie.net/wp-content/uploads/2012/08/image144.png, где Р – соответствующая относительная величина (рассчитанная, например, в %);

Q =100 – Ρ% – величина, обратная Р; n – численность выборки (n>30)

В клинических и экспериментальных работах довольно часто приходится использовать Малую выборку, Когда число наблюдений меньше или равно 30. При малой выборке для расчета ошибок репрезентативности, как средних, так и относительных величинЧисло наблюдений уменьшается на единицу, т. е.

https://uchenie.net/wp-content/uploads/2012/08/image145.pnghttps://uchenie.net/wp-content/uploads/2012/08/image146.png.

Величина ошибки репрезентативности зависит от объема выборки: чем больше число наблюдений, тем меньше ошибка. Для оценки достоверности выборочного показателя принят следующий подход: показатель (или средняя величина) должен в 3 раза превышать свою ошибку, в этом случае он считается достоверным.

Знание величины ошибки недостаточно для того, чтобы быть уверенным в результатах выборочного исследования, так как конкретная ошибка выборочного исследования может быть значительно больше (или меньше) величины средней ошибки репрезентативности. Для определения точности, с которой исследователь желает получить результат, в статистике используется такое понятие, как вероятность безошибочного прогноза, которая является характеристикой надежности результатов выборочных медико-биологических статистических исследований. Обычно, при проведении медико-биологических статистических исследований используют вероятность безошибочного прогноза 95% или 99%. В наиболее ответственных случаях, когда необходимо сделать особенно важные выводы в теоретическом или практическом отношении, используют вероятность безошибочного прогноза 99,7%

Определенной степени вероятности безошибочного прогноза соответствует определенная величина Предельной ошибки случайной выборки (Δ – дельта), которая определяется по формуле:

Δ=t * m, где t – доверительный коэффициент, который при большой выборке при вероятности безошибочного прогноза 95% равен 2,6; при вероятности безошибочного прогноза 99% – 3,0; при вероятности безошибочного прогноза 99,7% – 3,3, а при малой выборке определяется по специальной таблице значений t Стьюдента.

Используя предельную ошибку выборки (Δ), можно определить Доверительные границы, в которых с определенной вероятностью безошибочного прогноза заключено действительное значение статистической величины, Характеризующей всю генеральную совокупность (средней или относительной).

Для определения доверительных границ используются следующие формулы:

  1. для средних величин:

 https://uchenie.net/wp-content/uploads/2012/08/image147.png,где Мген – доверительные границы средней величины в генеральной совокупности;

Мвыб – средняя величинаПолученная при проведении исследования на выборочной совокупности; t – доверительный коэффициент, значение которого определяется степенью вероятности безошибочного прогноза, с которой исследователь желает получить результат; mM – ошибка репрезентативности средней величины.

     2) для относительных величин:

https://uchenie.net/wp-content/uploads/2012/08/image148.png, где Рген – доверительные границы относительной величины в генеральной совокупности; Рвыб – относительная величина, полученная при проведении исследования на выборочной совокупности; t – доверительный коэффициент; mP – ошибка репрезентативности относительной величины.

Доверительные границы показывают, в каких пределах может колебаться размер выборочного показателя в зависимости от причин случайного характера.

При малом числе наблюдений (n<30), для вычисления доверительных границ значение коэффициента t находят по специальной таблице Стьюдента. Значения t расположены в таблице на пересечении с избранной вероятностью безошибочного прогноза и строкиУказывающей на имеющееся число степеней свободы (n)Которое равно n-1.

на определение ошибок репрезентативности (m) и доверительных границ средней величины генеральной совокупности (Мген) при числе наблюдений больше 30

Условие задачи: при изучении комбинированного воздействия шума и низкочастотной вибрации на организм человека было установлено, что средняя частота пульса у 36 обследованных водителей сельскохозяйственных машин через 1 ч работы составила 80 ударов в 1 минуту; σ = ± 6 ударов в минуту.

Задание: определить ошибку репрезентативности (mM) и доверительные границы средней величины генеральной совокупности (Мген).

Решение.

  1. Вычисление средней ошибки средней арифметической (ошибки репрезентативности) (m): m = σ / √n = 6 / √36 = ±1 удар в минуту
  2. Вычисление доверительных границ средней величины генеральной совокупности (Мген). Для этого необходимо:
  • а) задать степень вероятности безошибочного прогноза (Р = 95 %);
  • б) определить величину критерия t. При заданной степени вероятности (Р=95%) и числе наблюдений меньше 30 величина критерия t, определяемого по таблице, равна 2 (t = 2). Тогда Мген = Мвыб ± tm = 80 ± 2×1 = 80 ± 2 удара в минуту.

Вывод. Установлено с вероятностью безошибочного прогноза Р = 95%, что средняя частота пульса в генеральной совокупности, т.е. у всех водителей сельскохозяйственных машин, через 1 ч работы в аналогичных условиях будет находиться в пределах от 78 до 82 ударов в минуту, т.е. средняя частота пульса менее 78 и более 82 ударов в минуту возможна не более, чем у 5% случаев генеральной совокупности.

на определение ошибок репрезентативности (m) и доверительных границ относительного показателя генеральной совокупности (Рген)

Условие задачи: при медицинском осмотре 164 детей 3 летнего возраста, проживающих в одном из районов городе Н., в 18% случаев обнаружено нарушение осанки функционального характера.

Задание: определить ошибку репрезентативности (mp) и доверительные границы относительного показателя генеральной совокупности (Рген).

Решение.

  1. Вычисление ошибки репрезентативности относительного показателя: m = √P x q / n = √18 x (100 — 18) / 164 = ± 3%
  2. Вычисление доверительных границ средней величины генеральной совокупности (Рген) производится следующим образом:
  • необходимо задать степень вероятности безошибочного прогноза (Р=95%);
  • при заданной степени вероятности и числе наблюдений больше 30, величина критерия t равна 2 (t = 2). Тогда Рген = Рвыб± tm = 18% ± 2 х 3 = 18% ± 6%.

Вывод. Установлено с вероятностью безошибочного прогноза Р=95%, что частота нарушения осанки функционального характера у детей 3 летнего возраста, проживающих в городе Н., будет находиться в пределах от 12 до 24% случаев.

на оценку достоверности разности средних величин

Условие задачи: при изучении комбинированного воздействия шума и низкочастотной вибрации на организм человека было установлено, что средняя частота пульса у водителей сельскохозяйственных машин через 1 ч после начала работы составила 80 ударов в минуту; m = ± 1 удар в мин. Средняя частота пульса у этой же группы водителей до начала работы равнялась 75 ударам в минуту; m = ± 1 удар в минуту.

Задание: оценить достоверность различий средних значений пульса у водителей сельскохозяйственных машин до и после 1 ч работы.

Решение.

https://extra.im/wp-content/uploads/2018/09/6.png

Вывод. Значение критерия t = 3,5 соответствует вероятности безошибочного прогноза Р > 99,7%, следовательно можно утверждать, что различия в средних значениях пульса у водителей сельскохозяйственных машин до и после 1 ч работы не случайно, а достоверно, существенно, т.е. обусловлено влиянием воздействия шума и низкочастотной вибрации.

на оценку достоверности разности относительных показателей

Условие задачи: при медицинском осмотре детей 3 летнего возраста в 18% (m = ± 3%) случаях обнаружено нарушение осанки функционального характера. Частота аналогичных нарушений осанки при медосмотре детей 4-летнего возраста составила 24% (m = ± 2,64%).

Задание: оценить достоверность различий в частоте нарушения осанки у детей 2 возрастных групп.

Решение.

https://extra.im/wp-content/uploads/2018/09/7.png

Вывод. Значение критерия t=1,5 соответствует вероятности безошибочного прогноза Р<95%. Следовательно, различие в частоте нарушений осанки среди детей, сравниваемых возрастных групп случайно, недостоверно, несущественно, т.е. не обусловлено влиянием возраста детей.

Источники информации по 1 вопросу

Автор и наименование

Страницы

(форма доступа для Интернет-ресурсов)

Основная литература

Глава 11. Выборочное наблюдение. Статистика: учебник / И.В. Гладун. – 2-е издание, стер. – М.: КНОРУС, 2014. – 232 с. – СПО

 стр. 211-220

Интернет ресурсы

  1. Информационно-издательский центр «Статистика России»

http://www.statbook.ru

  1. Электронный фонд правовой и технической документации

http://docs.cntd.ru 

  1. Информационно правовой портал

http://www.garant.ru/

Контрольное задание по Вопросу 1

  1. Записать в тетрадь конспект (1-2 стр.)

Вопрос 2. Определение объема выборочной совокупности

 Социологические исследования редко бывают сплошными, как, например, перепись населения. Обычно сплошное исследование проводится при небольшой генеральной совокупности.

Чаще всего исследования носят выборочный характер, при котором наиболее важным основанием является возможность распространения полученных результатов и выводов на всю генеральную совокупность. В таком случае сплошное исследование  нецелесообразно. Обеспечение этой нецелесообразности — вопрос о репрезентативности выборки, т.е. достаточной количественной и качественной представительности генеральной совокупности в выборке.

Условиями соблюдения репрезентативности выборки являются:

1) равная возможность каждого члена генеральной совокупности попасть в выборку;

2) отбор необходимо проводить независимо от изучаемого признака (иначе в выборку могут попасть, например, только спортсмены);

3) отбор по возможности должен производиться из однородных совокупностей;

4) величина выборки должна быть достаточно большой.

Далее возникает вопрос: как определить достаточный объем выборки? Для этого необходимо иметь характеристики генеральной совокупности по важнейшим (с точки зрения исследования) признакам. К ним, например, можно отнести сведения о количестве желающих заниматься физической культурой и спортом, о числе занимающихся и т.д. Но, как правило, такие характеристики (или многие из них) не известны. Пилотажные исследования как раз и направлены на их выявление.

Приведем пример определения объема выборочной совокупности. В ходе подготовки к проведению конкретно-социологического исследования на основании теоретических посылок были выделены характеристики и признаки, подлежащие изучению. Например, желание заниматься физической культурой, спортом, величина потребности, участие в видах деятельности и др.

На основании результатов изучения этих признаков в пробном исследовании (30 и более респондентов) определяется объем выборки.

Предположим, что в пробном исследовании опрошено 147 студентов 4-х курсов в четырех вузах Республики Беларусь.

Для желания заниматься физической культурой получены следующие распределения:

1.«Нет, не хочу» — 5 человек;

2.«Скорее не хочу, чем хочу» — 3 человека;

3.«Безразлично» — 11 человек;

4.«Скорее хочу, чем не хочу» — 34 человека;

5.«Да, хочу» — 72 человека.

Для расчета объема выборки используются формулы:

http://ebooks.grsu.by/gorodilin/5.GIF

t — 1,96 — распределение Стьюдента для вероятности 0,95 или 95% (т.е., если требуемая вероятность соответствия характеристик выборки и характеристик генеральной совокупности 95%, всегда = 1,96. Их соответствие на 95% — общепринятое требование в социологических исследованиях.

Для нашего распределения:

http://ebooks.grsu.by/gorodilin/3.GIF

При условии, что выборка в пробном исследовании представляла бы собой модель генеральной совокупности, величина выборочной совокупности для изучения желания заниматься физической культурой должна быть не меньше 147 человек. Тогда с вероятностью 95% можно утверждать, что генеральное среднее лежит в пределах 4,39+0,155.

Поскольку модель выборки в пробном исследовании во вузам не представляет собой модели генеральной совокупности (опрос был в четырех вузах из 30), то увеличиваем полученное n (30/4) в 7,5 раза. Тогда необходимый объем выборки — 1102 респондента.

Качественная представительность полученной выборки оценивается сравнением существенных характеристик (либо связанных с существенными) генеральной совокупности и выборки. Для студенчества, например, такими характеристиками являются: соотношение по полу, охват учебными занятиями по физическому воспитанию, соотношение форм занятий и др.

Когда информация о признаках элементов генеральной совокупности отсутствует, исключается возможность определения объема выборочной совокупности при помощи формул. В этом случае можно опереться на многолетний опыт социологов — практиков, свидетельствующий о том, что для пробных опросов достаточна выборка объемом 100-250 человек. При массовых опросах, если величина генеральной совокупности 5000 человек, достаточный объем выборочной совокупности — не менее 500 человек, если же величина генеральной совокупности 5000 человек и более, то — 10% ее состава (но не более 2000-2500 человек). Это характеризует достаточно достоверные результаты исследования.

ПРИМЕР 1

При проверке импортирования груза на таможне методом случайной выборки было обработано 200 изделий. В результате был установлен средний вес изделия 30г., при СКО=4г с вероятностью 0,997. Определите пределы в которых находится средний вес изделий генеральной совокупности.

Решение.

В данном примере – случайный повторный отбор.

n=200

https://www.goodstudents.ru/images/stories/vyborka/image002.gif=30г

https://www.goodstudents.ru/images/stories/vyborka/image004.gif=4г — СКО

p=0,997, тогда t=3

Формула средней ошибки для случайного повторного отбора:

https://www.goodstudents.ru/images/stories/vyborka/image006.gif

https://www.goodstudents.ru/images/stories/vyborka/image008.gif=0,84 г

https://www.goodstudents.ru/images/stories/vyborka/image010.gifг

Определяем величину средней ошибки.

https://www.goodstudents.ru/images/stories/vyborka/image012.gif

Ответ: пределы в которых находится средний вес изделий:https://www.goodstudents.ru/images/stories/vyborka/image014.gif г

ПРИМЕР 2

 В городе проживает 250тыс. семей. Для определения среднего числа детей в семье была организована 2%-я бесповторная выборка семей. По ее результатам было получено следующее распространение семей по числу детей:

 P=0,954. Найти пределы в которых будет находится среднее число детей в генеральной совокупности.

Число детей в семье, xi

0

1

2

3

4

5

Кол-во детей в семье

1000

2000

1200

400

200

200

Решение

2%-я выборка означает: n=250000*0,02= 5000 семей было исследовано.

Т.к. выборка бесповторная, используем следующую формулу для определения средней величины ошибки:

https://www.goodstudents.ru/images/stories/vyborka/image016.gif

Найдем среднее число детей в выборочной совокупности:

https://www.goodstudents.ru/images/stories/vyborka/image018.gif ребенка

Определим дисперсию

https://www.goodstudents.ru/images/stories/vyborka/image020.gif

https://www.goodstudents.ru/images/stories/vyborka/image022.gif ребенка – средняя величина ошибки

Т.к = 0,954, то t = 2

https://www.goodstudents.ru/images/stories/vyborka/image024.gifребенка

https://www.goodstudents.ru/images/stories/vyborka/image026.gifребенка

Вывод: из-за слишком малой величины ошибки, среднее число детей в генеральной совокупности можно принять за 1,5 ребенка.

Источники информации по 2 вопросу

Автор и наименование

Страницы

(форма доступа для Интернет-ресурсов)

Основная литература

Глава 11. Выборочное наблюдение. Статистика: учебник / И.В. Гладун. – 3-е издание, стер. – М.: КНОРУС, 2019. – 232 с. – СПО

 стр. 211-220

Интернет ресурсы

  1. Информационно-издательский центр «Статистика России»

http://www.statbook.ru

  1. Электронный фонд правовой и технической документации

http://docs.cntd.ru 

  1. Информационно правовой портал

http://www.garant.ru/

Контрольное задание по Вопросу 2

  1. Записать в тетрадь конспект (1-2 стр.)

3. Подведение итогов учебного занятия

(ответить на вопросы (тестовые задания) и провести самооценку усвоенного материала)

Таблица 2.

Наименование изученного вопроса учебного занятия

Контрольное задание по изученному вопросу

Ответ

Определение ошибки репрезентативности.

ЗАДАНИЕ 1

  Условие задачи: при медицинском осмотре 126 детей 6 летнего возраста, проживающих в одном из районов городе А., в 12% случаев обнаружено нарушение осанки функционального характера.

Задание: определить ошибку репрезентативности (mp) и доверительные границы относительного показателя генеральной совокупности (Рген).

Определение ошибки репрезентативности.

ЗАДАНИЕ 2.  

Условие задачи: при медицинском осмотре детей 6 летнего возраста в 15% (m = ± 3%) случаях обнаружено нарушение осанки функционального характера. Частота аналогичных нарушений осанки при медосмотре детей 7-летнего возраста составила 24% (m = ± 2,64%).

Задание: оценить достоверность различий в частоте нарушения осанки у детей 2 возрастных групп.

Определение объема выборочной совокупности

ЗАДАНИЕ 3. В городе проживает 300 тыс. семей. Для определения среднего числа детей в семье была организована 2%-я бесповторная выборка семей. По ее результатам было получено следующее распространение семей по числу детей:

 P=0,954. Найти пределы в которых будет находится среднее число детей в генеральной совокупности

Определение объема выборочной совокупности

Сформулируйте понятие генеральной совокупности

Определение объема выборочной совокупности

Перечислите способы отбора единиц для выборочного наблюдения

  1. Домашнее задание на следующее занятие
  1. Выучить основные понятия. Глава 11. Выборочное наблюдение. Статистика: учебник / И.В. Гладун. – 2-е издание, стер. – М.: КНОРУС, 2014. – 232 с. – СПО (стр. 211-220)
  2. Выполнить задание 11.1. в тетради (стр. 224) учебник / И.В. Гладун. – 2-е издание, стер. – М.: КНОРУС, 2014. – 232 с. – СПО

Преподаватель                                                                 Ю.В. Древаль

СОГЛАСОВАНО

Протокол заседания ЦК дисциплин профессионального цикла специальности «Право и организация

социального обеспечения»

ГБПОУ Юридический колледж

от ____________ 2017 г. № ___

В практической и научно-практической работе
врачи обобщают результаты, полученные как правило на выборочных
совокупностях.
Для более широкого распространения и применения полученных при изучении
репрезентативной выборочной совокупности данных и выводов
надо уметь по части явления судить о явлении и его закономерностях в
целом.

Учитывая, что врачи, как правило, проводят исследования на
выборочных совокупностях, теория статистики позволяет с помощью
математического аппарата (формул) переносить данные с выборочного
исследования на генеральную совокупность. При этом врач должен
уметь не только воспользоваться математической формулой, но сделать
вывод, соответствующий каждому способу оценки достоверности
полученных данных. С этой целью врач должен знать способы оценки
достоверности.

Применяя метод оценки достоверности результатов исследования для изучения общественного здоровья и деятельности учреждений
здравоохранения, а также в своей научной деятельности, исследователь должен уметь правильно выбрать способ данного метода.
Среди методов оценки достоверности различают параметрические и непараметрические.

Параметрическими называют количественные методы статистической обработки данных, применение которых требует обязательного
знания закона распределения изучаемых признаков в совокупности и вычисления их основных параметров.

Непараметрическими являются количественные методы статистической обработки данных, применение которых не требует знания
закона распределения изучаемых признаков в совокупности и вычисления их основных параметров.

Как параметрические, так и непараметрические методы, используемые
для сравнения результатов исследований, т.е. для сравнения
выборочных совокупностей, заключаются в применении определенных формул и
расчете определенных показателей в соответствии с
предписанными алгоритмами. В конечном результате высчитывается
определенная числовая величина, которую сравнивают с табличными
пороговыми значениями. Критерием достоверности будет результат сравнения
полученной величины и табличного значения при данном числе
наблюдений (или степеней свободы) и при заданном уровне безошибочного
прогноза.

Таким образом, в статистической процедуре оценки основное
значение имеет полученный критерий достоверности, поэтому сам способ
оценки достоверности в целом иногда называют тем или иным критерием по
фамилии автора, предложившего его в качестве основы метода.


Применение параметрических методов

При проведении выборочных исследований полученный результат не обязательно совпадает с результатом, который мог бы быть получен
при исследовании всей генеральной совокупности. Между этими величинами существует определенная разница, называемая ошибкой
репрезентативности, т.е. это погрешность, обусловленная переносом результатов выборочного исследования на всю генеральную
совокупность.

Определение доверительных границ средних
и относительных величин

Формулы определения доверительных границ представлены следующим образом:

  • для средних величин (М): Мген = Мвыб ± tm
  • для относительных показателей (Р): Рген = Рвыб ± tm

    где Мген и Рген — соответственно, значения средней величины и относительного показателя генеральной
    совокупности;

    Мвы6 и Рвы6 — значения средней величины и относительного показателя выборочной совокупности;

    m — ошибка репрезентативности;

    t — критерий достоверности (доверительный коэффициент).

Данный способ применяется в тех случаях, когда по результатам выборочной совокупности необходимо судить о размерах изучаемого
явления (или признака) в генеральной совокупности.

Обязательным условием для применения способа является репрезентативность выборочной совокупности. Для переноса результатов,
полученных при выборочных исследованиях, на генеральную совокупность необходима степень вероятности безошибочного прогноза (Р),
показывающая, в каком проценте случаев результаты выборочных исследований по изучаемому признаку (явлению) будут иметь место в
генеральной совокупности.

При определении доверительных границ средней величины или относительного показателя генеральной совокупности, исследователь сам
задает определенную (необходимую) степень вероятности безошибочного прогноза (Р).

Для большинства медико-биологических исследований считается
достаточной степень вероятности безошибочного прогноза, равная 95%,
а число случаев генеральной совокупности, в котором могут наблюдаться
отклонения от закономерностей, установленных при выборочном
исследовании, не будут превышать 5%. При ряде исследований, связанных,
например, с применением высокотоксичных веществ, вакцин,
оперативного лечения и т.п., в результате чего возможны тяжелые
заболевания, осложнения, летальные исходы, применяется степень
вероятности Р = 99,7%, т.е. не более чем у 1% случаев генеральной
совокупности возможны отклонения от закономерностей,
установленных в выборочной совокупности.

Заданной степени вероятности (Р) безошибочного прогноза соответствует определенное, подставляемое в формулу, значение критерия
t, зависящее также и от числа наблюдений.

При n>30 степени вероятности безошибочного прогноза Р = 99,7% — соответствует значение t = 3, а при Р = 95,5% — значение
t = 2.

При п<30 величина t при соответствующей степени вероятности безошибочного прогноза определяется по специальной таблице
(Н.А. Плохинского).

на определение ошибок репрезентативности (m) и доверительных границ средней величины генеральной совокупности (Мген)
при числе наблюдений больше 30

Условие задачи: при изучении комбинированного воздействия шума и низкочастотной вибрации на организм человека было
установлено, что средняя частота пульса у 36 обследованных водителей сельскохозяйственных машин через 1 ч работы составила 80
ударов в 1 минуту; σ = ± 6 ударов в минуту.

Задание: определить ошибку репрезентативности (mM) и доверительные границы средней величины генеральной
совокупности (Мген).

Решение.

  1. Вычисление средней ошибки средней арифметической (ошибки репрезентативности) (m):

    m = σ / √n =
    6 / √36 =
    ±1 удар в минуту

  2. Вычисление доверительных границ средней величины генеральной совокупности (Мген). Для этого необходимо:
    • а) задать степень вероятности безошибочного прогноза (Р = 95 %);
    • б) определить величину критерия t. При заданной степени вероятности (Р=95%) и числе наблюдений меньше 30 величина критерия t,
      определяемого по таблице, равна 2 (t = 2). Тогда Мген = Мвыб ± tm = 80 ± 2×1 = 80 ± 2
      удара в минуту.

Вывод. Установлено с вероятностью безошибочного прогноза Р =
95%, что средняя частота пульса в генеральной совокупности,
т.е. у всех водителей сельскохозяйственных машин, через 1 ч работы в
аналогичных условиях будет находиться в пределах от 78 до 82
ударов в минуту, т.е. средняя частота пульса менее 78 и более 82 ударов в
минуту возможна не более, чем у 5% случаев генеральной
совокупности.

на определение ошибок репрезентативности (m) и доверительных границ относительного показателя генеральной совокупности
ген)

Условие задачи: при медицинском осмотре 164 детей 3 летнего возраста, проживающих в одном из районов городе Н., в 18%
случаев обнаружено нарушение осанки функционального характера.

Задание: определить ошибку репрезентативности (mp) и доверительные границы относительного показателя
генеральной совокупности (Рген).

Решение.

  1. Вычисление ошибки репрезентативности относительного показателя:

    m = √P x q / n =
    √18 x (100 — 18) / 164 =
    ± 3%

  2. Вычисление доверительных границ средней величины генеральной совокупности (Рген) производится следующим образом:
    • необходимо задать степень вероятности безошибочного прогноза (Р=95%);
    • при заданной степени вероятности и числе наблюдений больше 30, величина критерия t равна 2 (t = 2).
      Тогда Рген = Рвыб± tm = 18% ± 2 х 3 = 18% ± 6%.

Вывод. Установлено с вероятностью безошибочного прогноза Р=95%, что частота нарушения осанки функционального характера у
детей 3 летнего возраста, проживающих в городе Н., будет находиться в пределах от 12 до 24% случаев.


Оценка достоверности разности результатов исследования

Данный способ применяется в тех случаях, когда необходимо определить, случайны или достоверны (существенны), т.е. обусловлены
какой-то причиной, различия между двумя средними величинами или относительными показателями.

Обязательным условием для применения данного способа является репрезентативность выборочных совокупностей, а также наличие
причинно-следственной связи между сравниваемыми величинами (показателями) и факторами, влияющими на них.

Формулы определения достоверности разности представлены следующим образом:

Если вычисленный критерий t более или равен 2 (t ≥ 2), что соответствует вероятности безошибочного прогноза Р равном или
более 95% (Р ≥ 95%), то разность следует считать достоверной (существенной), т.е. обусловленной влиянием какого-то фактора, что
будет иметь место и в генеральной совокупности.

При t < 2, вероятность безошибочного прогноза Р < 95%, это означает, что разность недостоверна, случайна, т.е. не
обусловлена какой-то закономерностью (не обусловлена влиянием какого-то фактора).

Поэтому полученный критерий должен всегда оцениваться по отношению к конкретной цели исследования.

на оценку достоверности разности средних величин

Условие задачи: при изучении комбинированного воздействия шума
и низкочастотной вибрации на организм человека было
установлено, что средняя частота пульса у водителей сельскохозяйственных
машин через 1 ч после начала работы составила 80 ударов в
минуту; m = ± 1 удар в мин. Средняя частота пульса у этой же группы
водителей до начала работы равнялась 75 ударам в минуту;
m = ± 1 удар в минуту.

Задание: оценить достоверность различий средних значений пульса у водителей сельскохозяйственных машин до и после 1 ч
работы.

Решение.

Вывод. Значение критерия t = 3,5 соответствует вероятности безошибочного прогноза Р > 99,7%, следовательно можно
утверждать, что различия в средних значениях пульса у водителей сельскохозяйственных машин до и после 1 ч работы не случайно, а
достоверно, существенно, т.е. обусловлено влиянием воздействия шума и низкочастотной вибрации.

на оценку достоверности разности относительных показателей

Условие задачи: при медицинском осмотре детей 3 летнего возраста в 18% (m = ± 3%) случаях обнаружено нарушение
осанки функционального характера. Частота аналогичных нарушений осанки при медосмотре детей 4-летнего возраста составила 24%
(m = ± 2,64%).

Задание: оценить достоверность различий в частоте нарушения осанки у детей 2 возрастных групп.

Решение.

Вывод. Значение критерия t=1,5 соответствует вероятности безошибочного прогноза Р<95%. Следовательно, различие в
частоте нарушений осанки среди детей, сравниваемых возрастных групп случайно, недостоверно, несущественно, т.е. не обусловлено
влиянием возраста детей.


Типичные ошибки, допускаемые исследователями при
применении способа оценки достоверности разности результатов исследования

  • При оценке достоверности разности результатов исследования по критерию t часто делается вывод о достоверности (или
    недостоверности) самих результатов исследования. В действительности же этот способ позволяет судить только о достоверности
    (существенности) или случайности различий между результатами исследования.

  • При полученном значении критерия t<2 часто делается вывод о необходимости увеличения числа наблюдений. Если же
    выборочные совокупности репрезентативны
    , то нельзя делать вывод о необходимости увеличения числа наблюдений, т.к. в данном
    случае значение критерия t<2 свидетельствует о случайности, недостоверности различия между двумя сравниваемыми результатами
    исследования.

Применение методов статистического анализа для изучения общественного здоровья и здравоохранения.
Под ред. чл.-корр. РАМН, проф. В.З.Кучеренко. М., «Гэотар-Медиа», 2007, учебное пособие для вузов

  1. Власов В.В. Эпидемиология. — М.: ГЭОТАР-МЕД, 2004. — 464 с.
  2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. — М.: ГЭОТАР-МЕД, 2007. — 512 с.
  3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью
    и здравоохранению: Часть 1. Общественное здоровье. — М.: Медицина,
    2003. — 368 с.
  4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). — СПб, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) — Москва, 2000. — 432 с.
  6. С. Гланц. Медико-биологическая статистика. Пер с англ. — М., Практика, 1998. — 459 с.

Методы и способы математико-статистической обработки у студентов гуманитарных факультетов, в том числе и психологических, вызывают значительные затруднения и, как следствие, боязнь и предубеждение в возможности ими овладения. Однако, как показывает практика, это ложные заблуждения. Следует понять, что в современной психологии, в практической деятельности психолога любого уровня, без использования аппарата математической статистики все выводы могут восприниматься как не более чем умозрительные, с известной долей субъективности. Вместе с тем по мере накопления практического опыта, освоения базы данных эмпирических исследований неизбежно возникает задача их обобщения, выявления тенденций, динамики, характерных черт, особенностей, которые невозможно обоснованно интерпретировать, не используя математические методы количественного анализа.

Анализ первичных статистик
Для определения способов математико-статистической обработки прежде всего необходимо оценить характер распределения данных по всем используемым параметрам (признакам). Для параметров (признаков), имеющих нормальное распределение или близкое к нормальному, можно использовать методы параметрической статистики, которые во многих случаях являются более мощными, чем методы непараметрической статистики. Достоинством последних является то, что они позволяют проверять статистические гипотезы независимо от формы распределения.

Одним из важнейших в математической статистике является понятие нормального распределения.

Нормальное распределение — модель варьирования некоторой случайной величины, значения которой определяются множеством одновременно действующих независимых факторов. Количество таких факторов велико, а эффект влияния каждого из них в отдельности очень мал. Такой характер взаимовлияний весьма характерен для психических явлений, поэтому исследователь в области психологии чаще всего выявляет нормальное распределение. Однако так бывает не всегда, поэтому в каждом случае форма распределения должна быть проверена.

Характер распределения выявляется главным образом для того, чтобы определиться в методах математико-статистической обработки данных.

Если характер распределения показателей психологического признака является нормальным или близким к нормальной форме распределения признака, описываемой кривой Гаусса, то можно использовать параметрические методы математической статистики как наиболее простые, надежные и достоверные: сравнительный анализ, расчет достоверности отличий признака между выборками (по критерию Стьюдента, F-критерию Фишера, коэффициенту корреляции Пирсона и др).

Если кривая распределения показателей психологического признака далека от нормальной, то используют методы непараметрической статистики: расчет достоверности отличий по критерию Q Розенбаума (для малых выборок), по критерию U Манна-Уитни, коэффициенту ранговой корреляции Спирмена, по факторному, многофакторному, кластерному и другим методам анализа.

Помимо этого, по характеру распределения можно составить общее представление об общей характеристике выборки испытуемых по данному признаку и тому, насколько данная методика соответствует (т. е. «работает», валидна) данной выборке.

Важнейшими первичными статистиками, характеризующими распределение исследуемого признака, являются:
— средняя арифметическая — это величина, сумма отрицательных и положительных отклонений от которой равна нулю. В статистике ее обозначают буквой «М» или «X». Чтобы ее подсчитать, надо суммировать все значения ряда и разделить сумму на количество суммированных значений;
— среднее квадратичное отклонение (обозначаемое греческой буквой а (сигма) и называемое также основным, или стандартным отклонением) — мера разнообразия входящих в группу объектов; она показывает, насколько в среднем отклоняется каждая варианта (конкретное значение оцениваемого параметра) от средней арифметической. Чем сильнее разбросаны варианты относительно средней, тем большим оказывается и среднее квадратичное отклонение. Разброс значений характеризует и размах, т.е. разность между наибольшим и наименьшим значением в ряду. Однако сигма полнее характеризует разброс значений относительно средней арифметической;
— коэффициент вариации — частное, полученное отделения сигмы на среднюю арифметическую, умноженное на 100%:
CV=q/Mx 100%,
где q — стандартное отклонение; CV — коэффициент вариации; М — среднее арифметическое.

Следует иметь в виду, что сигма (q) — величина именованная и зависит не только от степени варьирования, но и от единиц измерения. Поэтому по сигме можно сравнивать изменчивость лишь одних и тех же показателей, а сопоставлять сигмы разных признаков по абсолютной величине нельзя. Для того чтобы сравнить по уровню изменчивости признаки любой размерности (выраженные в различных единицах измерения) и избежать влияния масштаба измерений средней арифметической на величину сигмы, применяют коэффициент вариации, который представляет собой по существу приведение к одинаковому масштабу величины q.

Для нормального распределения используются точные количественные зависимости частот и значений, позволяющие прогнозировать появление новых вариант.

Таким образом, ориентируясь на характеристики нормального распределения, можно оценить степень близости к нему рассматриваемого распределения психологического признака.

Следующими по важности характеристиками распределения показателей признака являются такие первичные статистики, как коэффециент асимметрии и эксцесс.

Коэффициент асимметрии — показатель отклонения распределения в левую или правую сторону по оси абсцисс. Если правая ветвь кривой длиннее левой, говорят о правосторонней (положительной) fccbvtnhbb, если левая ветвь длиннее правой, говорят о левосторонней (отрицательной) асимметрии.

Эти параметры позволяют составить первое приближенное представление о характере распределения:
— у нормального распределения редко можно обнаружить коэффициент асимметрии, близкий к единице и более единицы (-1 и +1);
— эксцесс у признаков с нормальным распределением обычно имеет величину в диапазоне 2-4. Вычислить показатели ассиметрии и эксцесса эмпирического распределения можно, используя функцию «Описательная статистика» в программе Excel.

Следующий момент, на который следует обратить особое внимание, относится к интерпретации психологического значения, выявляемого данным характером распределения. Что же выявляет кривая Гаусса в характеристике психологических явлений? Какой психологический смысл выявляет кривая распределения данных, оценок тестовых баллов исследуемого психологического признака?

Следует иметь в виду, что кривая распределения тестовых баллов (оценок, результатов выполнения заданий и т. д.), с одной стороны, отражает свойства пунктов, из которых составлен тест (задание) а с другой — характеризует состав выборки испытуемых, т. е. насколько успешно они справляются с заданием, насколько данный тест (задание) дифференцирует выборку по соответствующему качеству, признаку.

Если кривая имеет правостороннюю асимметрию, то это значит что в тесте преобладают трудные задания (для данной выборки); если кривая имеет левостороннюю асимметрию,
то значит, большинство пунктов в тесте легкие (слабые).

Таким образом, имеются два варианта объяснения:
1) тест (задание) плохо дифференцирует испытуемых с низким уровнем развития способностей (свойств, качеств, характеристик): большинство испытуемых получают примерно одинаковый — низкий балл;
2) тест хуже дифференцирует испытуемых с высоким развитием способностей (свойств, качеств, характеристик): большинство испытуемых получают достаточно высокий балл.

Анализ эксцесса кривой распределения позволяет сделать следующие выводы в зависимости от формы распределения показателей (данных, вариант) психологического признака:
В случае, когда возникает значительный положительный эксцесс (эксцессивная кривая) и вся масса баллов скучивается вблизи среднего значения, возможны следующие объяснения:
— ключ составлен неверно: объединены при подсчете отрицательно связанные признаки, которые взаимоуничтожают баллы. Но в практике психолога, который работает с валидными и надежными методиками, такие случаи исключаются (кроме собственной невнимательности и безответственности);
— испытуемые применяют, разгадав направленность теста (опросника), специальную тактику «медианного балла» — искусственно балансируя ответы «за» и «против» одного из полюсов измеряемого психологического признака;
— если подбираются пункты, тесно положительно коррелирующие между собой (т. е. испытания не являются статистически независимыми), то в распределении баллов возникает отрицательный эксцесс, принимающий форму плато;
— максимальных величин отрицательный эксцесс достигает по мере возрастания вогнутости вершины распределения — до образования двух вершин, двух мод (с «провалом» между ними). Такая бимодальная конфигурация распределения баллов указывает на то. что выборка испытуемых разделилась на две категории, подгруппы (с плавным переходом между ними): одни справились с большинством заданий (согласились с большинством вопросов), другие — не справились (не согласились). Такое распределение свидетельствует, что в основе заданий (пунктов) имеется какой-то один общий им всем признак, соответствующий определенному свойству испытуемых: если у испытуемых есть это свойство (способность, знание, умение), то они справляются с большинством пунктов заданий, если нет этого свойства, то не справляются.

Начать с анализа первичных статистик надо еще и по той причине, что они весьма чувствительны к наличию выпадающих вариант. Большие величины эксцесса и асимметрии часто являются индикаторами ошибок при подсчетах вручную или ошибок при вве-агпни данных через клавиатуру при компьютерной обработке. Грубые промахи при введении данных для обработки можно обнаружить, если сравнить величины сигм у аналогичных параметров. Выделяющаяся величиной сигма может указывать на ошибки.

Существует правило, согласно которому все расчеты вручную должны выполняться дважды (особо ответственные — трижды), желательно, -разными способами с вариацией последовательности обращения к числовому массиву.

Иной причиной больших показателей эксцесса и асимметрии может оказаться недостаточная надежность и валидность методик, используемых для данной популяции.

В научных исследованиях по части (отдельной выборке) никогда не удается полностью охарактеризовать целое (генеральную совокупность, популяцию): всегда остается вероятность того, что оценка генеральной совокупности на основе выборочных данных недостаточно точна, имеет некоторые, большие или меньшие, ошибки. Такие ошибки, при обобщении, экстраполяции результатов, полученных при изучении отдельной выборки, на всю генеральную совокупность, называются ошибками репрезентативности.

Статистические ошибки репрезентативности показывают, в каких пределах могут отклоняться от параметров генеральной совокупности (от математического ожидания или истинных значений) частные определения, полученные на основе конкретных выборок. Очевидно, величина ошибки тем больше, чем больше варьирование признака и чем меньше выборка. Это и отражено в формулах для вычисления статистических ошибок, характеризующих варьирование выборочных показателей относительно их генеральных параметров.

Поэтому в число первичных статистик обязательно входит статистическая ошибка средней арифметической. Формула для ее вычисления такова:
mM = +(-) q/n,
где: mn — ошибка средней арифметической; q — сигма, стандарта отклонение; n — число значений признака.

Перечисленные основные первичные статистики позволяют оценить характер распределения данных в экспериментальном массиве и использовать основные методы параметрической и непараметрической статистики для обоснования результатов эмпирического психологического исследования.

Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. В статье рассказываем подробнее об этом важном свойстве.

Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Оно отражает способность данных представлять зависимости и закономерности исследуемой предметной области, которые должна обнаружить и научиться воспроизводить построенная модель. Иными словами, репрезентативность показывает, содержат ли анализируемые данные достаточно информации для построения качественной модели, а так же, может ли эта информация быть использована алгоритмом построения модели.

Репрезентативность генеральной совокупности отражает способность совокупности описывать существенные свойства, зависимости и закономерности объектов, процессов и явлений предметной области. Она достигается за счёт правильной организации сбора и консолидации первичных данных.

Репрезентативность выборки описывает способность выборочных данных отражать структурные свойства совокупности, из которой они были извлечены. Т.е. даёт ответ на вопрос: можно ли в исследовании заменить совокупность на выборку без значимого ухудшения результатов анализа. Репрезентативность выборки достигается с помощью правильного выбора метода сэмплинга.

Таким образом, репрезентативность выборки касается только воспроизведения характеристик совокупности. Если сама исходная совокупность плохо представляет предметную область, то, даже если полученная из неё выборка будет репрезентативной, построить на её основе корректную с точки зрения предметной области модель невозможно.

Например, пусть компания собирается вывести на рынок новый продукт. При этом она хочет провести маркетинговые исследования в виде опроса клиентов о желаемых характеристиках и параметрах продукта. Число клиентов компании насчитывает сотни тысяч человек (генеральная совокупность), поэтому опросить их всех не представляется возможным физически, не является целесообразным экономически.

Поэтому компания формирует выборку клиентов для проведения опроса. Если мнение клиентов из выборки отражает мнение большинства клиентов и может быть использовано для принятия решений о параметрах и характеристиках нового продукта, то такая выборка будет репрезентативной.

Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. Поэтому в процессе анализа необходимо убедиться, что сформированная выборка репрезентативна.

Таким образом, репрезентативная выборка — это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.

Особенно важным является обеспечение репрезентативности в машинном обучении, для построения моделей классификации и регрессии используется несколько выборок: обучающая, тестовая и валидационная, которые тем или иным способом отбираются из исходного набора данных. И все эти выборки должны быть репрезентативными.

Обеспечение репрезентативности

В основе построения репрезентативной выборки лежит правильный выбор используемого алгоритма сэмплинга. При этом размер выборки, хотя и является важным, сам по себе не гарантирует ее репрезентативности. Например, интернет-опрос может показать, что 100% людей пользуется интернетом, хотя это не соответствует действительности (т.е. репрезентативность нарушена).

Выделяют качественную (структурную) и количественную репрезентативность.

Рисунок 1. Количественная и качественная репрезентативность

Качественная репрезентативность

Качественная репрезентативность показывает, что все группы, присутствующие в совокупности, будут представлены и в выборке. Для этого каждый элемент совокупности должен иметь равную вероятность, быть выбранным, а сама выборка должна производиться из однородных групп.

Наиболее оптимальным способом формирования репрезентативной выборки является простой случайный сэмплинг, поскольку в этом случае у любого представителя генеральной совокупности будет одинаковая вероятность попасть в выборку.

Например, при формировании выборки клиентов для опроса, в нее попадут люди из различных социальных групп пропорционально их долям в генеральной совокупности. В результате, выборка будет представлять собой уменьшенную копию генеральной совокупности.

Случайность отбора респондентов в выборку может обеспечивается различными методами. Например, для опроса клиентов берутся номера клиентских карт, которые случайным образом отбираются компьютерной программой с использованием генератора случайных чисел.

Однако, на практике применить простой случайный сэмплинг не всегда представляется возможным. Это связано с тем, что генеральная совокупность может быть неоднородной и будет содержать группы объектов.

Например, если опрос будет проводиться по телефону, то большинство откликов будет получено от пенсионеров, как людей менее занятых и более склонных идти на контакт. Очевидно, что если опрос проводится о продукте, ориентированном на молодёжь, то ценность мнения пенсионеров вряд ли будет высокой.

Чтобы решить эту проблему, можно использовать случайный стратифицированный сэмплинг, когда исходная совокупность сначала разделяется на слои (страты) по некоторому признаку. Например, клиенты могут быть стратифицированы по возрасту. Тогда страты могут быть сформированы пропорционально доле объектов в группах, что позволит уменьшить или увеличить долю той или иной группы, сохранив репрезентативность.

Другой вариант — использовать кластерный (групповой) сэмплинг, когда клиенты предварительно разбиваются на качественно однородные группы — кластеры, и отбор производится из каждого кластера независимо. При этом вероятность отбора может быть одинаковой для всех кластеров, или различной. Можно некоторые кластеры вообще исключить из отбора. В нашем примере клиенты могут быть разбиты на кластеры по социальному статусу — студенты, работающие, пенсионеры, военнослужащие и т.д. Таким образом, долю, пенсионеров в выборке, можно уменьшить или совсем исключить.

Количественная репрезентативность

Количественная репрезентативность показывает, является ли достаточным число элементов выборки для представления характеристик генеральной совокупности с заданной погрешностью. Например, при неизвестной величине генеральной совокупности, когда результат отражается в виде показателя относительной доли, число элементов выборки, обеспечивающее количественную репрезентативность, может быть вычислено по формуле:

n=\frac{t^{2}\cdot p\cdot q}{\Delta ^{2}}

где t — доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки, p — доля единиц наблюдения, обладающих изучаемым признаком, q=1−p — доля единиц наблюдения, не обладающих изучаемым признаков, Δ — допустимая ошибка выборки.

Например, одним из показателей качества кредитного портфеля банка является доля заёмщиков, допустивших просрочку. Предельная ошибка, которую можно допустить, чтобы разброс значений показателя не превышал разумные границы, Δ=5% . При этом показатель может принимать значения 25% ±5%, т.е. от 20% до 30%. Допуская t=2, что обеспечивает 95% вероятность, получаем

n=\frac{2^{2}\cdot 0,25\cdot 0,75}{0,05^{2}}=300 заёмщиков.

Если же показатель — не относительная средняя величина просроченной задолженности по всем клиентам, то число наблюдений будет:

n=\frac{t^{2}\cdot \sigma ^{2}}{\Delta ^{2}}

где \sigma ^{2} — среднеквадратическое отклонение значений исследуемого признака.

Если используется выборка без возврата и размер генеральной совокупности известен, то для определения необходимого размера случайной выборки при использования относительных величин (долей) применяется формула:

n=\frac{t^{2}\cdot p\cdot q\cdot N}{\Delta ^{2}\cdot N+t^{2}\cdot p\cdot q}

где N — число наблюдений генеральной совокупности. Для средних значений исследуемой величины формула примет вид:

n=\frac{t^{2}\cdot \sigma ^{2}\cdot N^{2}}{\Delta ^{2}\cdot N^{2}+t^{2}\cdot \sigma ^{2}}

Тогда, в предыдущем примере, положив число клиентов N=500, получим:

n=\frac{2^{2}\cdot 0,25\cdot 0,75\cdot 500}{0,05^{2}\cdot 500+2^{2}\cdot 0,25\cdot 0,75}\approx 188 клиентов.

Таким образом, необходимый объем выборки при безвозвратном отборе меньше, чем при возвратном (соответственнo, 188 и 300).

В целом, число наблюдений, требуемое для получения репрезентативной выборки, изменяется обратно пропорционально квадрату допустимой ошибки.

Методы оценки репрезентативности

Формально, выборку называют репрезентативной, когда результат оценки определенного параметра по данной выборке совпадает с результатом, оцененным по генеральной совокупности с учетом допустимой погрешности (ошибки репрезентативности). Если выборочная оценка отличается от оценки по генеральной совокупности более, чем на заданный уровень погрешности, то такая выборка считается нерепрезентативной.

Репрезентативность оценивается по отдельным параметрам выборки и совокупности. При этом выборка может оказаться репрезентативной по одним параметрам и нерепрезентативной по другим. Поэтому говорить о репрезентативности как о дихотомическом свойстве выборки (репрезентативна или нерепрезентативна) было бы не верно: выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие — менее. Поэтому правильнее говорить о мере репрезентативности определённой выборки по конкретным параметрам.

Основным моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной. Одна и та же выборка может быть достаточно репрезентативной для одной задачи и недостаточно для другой. Кроме этого, нужно проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. Например, в маркетинговых исследованиях для анализа клиентов важны пол, возрасту, образование и пр.

Следует отметить, что далеко не все задачи бизнес-аналитики требуют строгого статистического подтверждения репрезентативности выборок. Как правило, это задачи точного прогнозирования. Что касается обычных задач, связанных, например, с определением предпочтений действующих и потенциальных клиентов, то они решаются охватом типичной клиентуры, которую можно найти непосредственно в торговых центрах.

Статистические методы

Данные, полученные в результате выборочных обследований, являются реализациями случайных величин (возраст, стаж работы, доход и т.д.). Обычно, на практике считают, что выборка является репрезентативной, если её статистические параметры (среднее значение, дисперсия, среднеквадратичное отклонение и т.д.) отличаются от параметров совокупности не более, чем на 5%.

Однако, данный подход применим только при условии, что вся генеральная совокупность известна и для неё можно вычислить статистические характеристики. Но на практике такое встречается редко, поскольку часть потенциально интересных для исследования объектов оказывается недоступной для наблюдения.

В этом случае прибегают к формированию двух независимых выборок, вычисляют и сравнивают их характеристики, и если они совпадают (не различаются значимо), то выборки считаются репрезентативными. В теоретическом плане такой подход является достаточно привлекательным, однако, на практике сложно реализуем. Во-первых, формирование нескольких выборок ведёт к дополнительным затратам, а во-вторых, если параметры выборок значимо различаются, то невозможно сказать, какая из них репрезентативна.

Для сравнения двух выборок используются два вида критериев: непараметрические и параметрические. Первые не используют в расчётах значений параметров статистических распределений, а оперируют частотами и рангами. К числу наиболее популярных непараметрических критериев можно отнести критерий Уилкоксона и U-критерий Манна-Уитни. Второй рекомендуется использовать, если число наблюдений превышает 30. К числу популярных параметрических критериев относится t-критерий Стьюдента, критерий однородности Смирнова, Q-критерий Розенбаума и др.

Нестатистические методы

Статистические методы оценки репрезентативности выборочных данных, хотя и являются строго обоснованными, но довольно сложны в использовании (особенно для пользователей, не имеющих достаточной математической подготовки). Кроме этого они могут иметь ограничения (например, независимость выборок), удовлетворить которым достаточно сложно.

Статистические подходы к оценке репрезентативности выборок имеет смысл использовать, если для анализа данных используются статистические методы. Методы машинного обучения, которые является эвристическими и в большинстве случаев не обеспечивают точного и единственного решения, вообще говоря, не нуждаются в точной оценке репрезентативности обучающих выборок. Поэтому в них используются свои техники для определения того, насколько обучающая или тестовая выборка хорошо представляют исходную совокупность.

Ещё одной особенностью выборок, используемых в машинном обучении, является то, что объём исходной совокупности, из которой формируются обучающее, тестовое, а при необходимости, и валидационное множество, известен, поскольку данные содержатся в консолидированных таблицах источника данных.

Обычно нестатистические меры репрезентативности используют расстояния между векторами наблюдений в пространстве признаков. Рассмотрим, например, такой показатель как индекс ближайшего соседа (Nearest Neighbours Index — NNI). Предположим, что выборка включает n ближайших соседей внутри некоторой области пространства признаков. Вычислим величину, представляющую собой среднее расстояние между i-м объектом и всеми остальными объектами в выборке (области соседства):

\overline{D}_{sample}=\frac{1}{n}\sum\limits_{i=1}^{n}D_{i}

где D_i — расстояние от i-го объекта до остальных объектов выборки, n — число объектов выборки.

Затем вычислим величину:

\overline{D}_{total}=\sqrt{\frac{D_{_{total}}}{N}}

где D_{_{total}} — общее расстояние по всей совокупности, N — число наблюдений совокупности.

Тогда индекс ближайшего соседа будет:

NNI=\frac{\overline{D}_{sample}}{\overline{D}_{total}}

Если значение данного показателя близко к 1, то точки выборки имеют равномерное пространственное распределение. Если меньше 1, то пространственное распределение точек неоднородно. Если NNI больше 1, то имеет место значительная дисперсия значений внутри выборки.

Очевидно, что наилучшим вариантом с точки зрения репрезентативности будет первый случай, когда пространственное распределение точек данных в совокупности и выборке примерно одинаковое. Второй случай показывает, что внутри выборки могут присутствовать некоторое локальные особенности, нехарактерные для всей совокупности.

В литературе можно найти больше количество разнообразных алгоритмов и методов оценки репрезентативности выборок для машинного обучения, разработанных для различных предметных областей исследования и типов задач анализа. Большинство их них являются эвристическими и не гарантируют получения наилучшего результата. Поэтому самым надёжным критерием репрезентативности выборки, на основе которой строилась определённая обучаемая модель, является точность и обобщающая способность самой модели.

Ремонт выборки

Возникает вопрос: а что делать в ситуации, когда аналитику доступна только выборка «как есть», а её репрезентативность неудовлетворительная? При этом доступ к генеральной совокупности для формирования более репрезентативной выборки у него отсутствует (например, из-за проблем с сетью, невозможности повторных исследований из-за высоких затрат и т.д.). В этом случае улучшить ситуацию может специальная процедура, которая называется «ремонт выборки».

Все действия аналитика, связанные с репрезентативностью, можно разделить на два этапа: контроль и ремонт.

  1. Контроль выборки — процедура сравнения генеральной совокупности и выборки, выявление степени их расхождения, обнаружение причин отклонений и разработка возможных способов их устранения.
  2. Ремонт выборки — процесс устранения расхождения генеральной совокупности и выборки.

Контроль и ремонт выборки рассматриваются как обязательные этапы любого выборочного исследования. Хотя, некоторые авторы не разделяют эти два этапа, а включают ремонт в общую процедуру контроля выборки. Ряд вопросов, связанных с контролем выборки был рассмотрен выше.

Основной целью ремонта является повышение качества выборки в смысле отражения ею зависимостей и закономерностей исследуемых процессов и явлений, которые требуется обнаружить в процессе анализа. При этом не следует путать ремонт выборки с повышением качества данных вообще.

Ремонт выборки, обычно, включает следующие задачи:

  1. Коррекция выборки. Заключается в замене ранее выбранных объектов совокупности. Коррекция может потребоваться, например, если в выборке произошло искажение распределения объектов относительно исходной совокупности, например, получился избыток пенсионеров, мужчин, женщин или людей с определённым уровнем образования. Замена может быть произвольной (например, следующий клиент по списку) или эквивалентной (подыскивается клиент с теми же параметрами — пенсионера меняем на пенсионера и т.д.).
  2. Расширение основы выборки. Позволяет включить в выборку большее разнообразие наблюдений. Основа выборки — это подмножество элементов генеральной совокупности, из которого будет формироваться выборка. Использование основы выборки позволяет сделать отбор более целевым, исключив обработку данных, не относящихся к задаче анализа, лучше сфокусироваться на целевой группе. В анализе клиентской базы основой выборки могут быть только мужчины, только женщины, люди в возрасте от 30 до 60 и т.д. Если выборка получилась недостаточно репрезентативной, то решить проблему можно расширяя границы основы выборки. Например, если изначально основой выборки являлась только люди пенсионного возраста, то при необходимости она может быть расширена и на людей предпенсионного возраста.
  3. Взвешивание. При взвешивании объектам выборки могут присваиваться весовые коэффициенты, которые могут учитываться в алгоритме анализа. Например, повышенные весовые коэффициенты могут присваиваться клиентам, которые наиболее активно пользовались услугами компании (купили товаров и услуг на сумму выше некоторого порога). Логично предположить, что мнение таких клиентов будет более значимым.

Следует отметить, что единого, строго обоснованного подхода к ремонту выборок, вообще говоря, не существует, хотя в литературе можно встретить некоторые общие рекомендации. В большинстве практических случаев аналитику приходится самостоятельно выбирать, какие преобразования следует применить к выборке для повышения её репрезентативности.

Другие материалы по теме:

Обработка пропусков в данных

Loginom Data Quality. Очистка клиентских данных. Деморолик

Понравилась статья? Поделить с друзьями:
  • Расчет вероятности ошибки на бит
  • Расчет себестоимости при закрытии месяца ошибка
  • Расчет вероятностей ошибок и оптимального порога
  • Расчет ошибки эксперимента
  • Расчет ошибки репрезентативности формула