Величина ошибки выборки при типическом отборе - TopOshibok.ru - решение и исправление самых разных ошибок

Средняя и предельная ошибки выборки

Средняя ошибка выборкивсегда
присутствует в выборочных исследованиях
и появляется вследствие того, что
обследуются не все единицы статистической
совокупности, а лишь ее часть.

Средняя ошибка выборки превращается в
предельную ошибкуΔ
при умножении ее на коэффициент
доверияt, который задается
предварительно, исходя из требуемой
точности наблюдения. Предельная ошибка
позволяет судить об «истинном» размере
параметра в генеральной совокупности
с определенной степенью вероятности

-предельная
ошибка ,-средняя
ошибка, t – коэффициент доверия

При типическом и серийном
отборе, при расчете ошибки выборки
вместо общей дисперсии (σ²)
следует использовать
среднюю из внутригрупповых дисперсий
и межгрупповую дисперсию,
где—
частная дисперсия i группы,объем i группы

Формулы предельной ошибки случайной
выборки при определении средней

Для повторного отбора

где
средняя
ошибка выборки

Для бесповторного отбора

Формулы предельной ошибки случайной
выборки при определении доли

Для повторного отбора

где
средняя ошибка выборочной доли

Для бесповторного отбора

где
средняя ошибка выборочной доли

Формулы численности случайной
выборки при определении средней величины

Для повторного отбора	Для бесповторного отбора

Формулы численности случайной выборки при определении доли изучаемого признака

Для повторного отбора	Для бесповторного отбора

Предельная разница между генеральной
и выборочной средней соответствует
величине предельной ошибки

для средней	для доли:

Значения вероятности и соответственно
tнаходятся по таблицам
распределения:

Лапласа
Стьюдента (в случае малой выборки)

Формулы случайной выборки подходят и
для механической выборки.

При необходимости округления, при
случайной выборке – округление в большую
сторону, при механической – в меньшую.

Малая выборка

Если численность выборочной совокупности
не более 30 единиц, то средняя ошибка
малой выборки при определении средней
величины рассчитывается по формуле:

	при определении доли по формуле:

Для расчета ошибки малой выборки
применяется уточненная формула дисперсии

где n-1 —
представляет собой «число степеней
свободы», т.е. количество вариантов,
могущих принимать произвольные
значения, не меняющие величины средней.

Типы задач выборочного наблюдения

определение ошибки выборки,
определение численности выборочной
совокупности n
,
определение вероятности того, что
выборочная средняя (или доля) отклонится
от генеральной не более, чем на заданную
величину t=Δ/μ,
оценка случайности расхождений
показателей выборочных наблюдений,
перенос выборочных характеристик на
генеральную совокупность.

Проверка гипотез о средней и доле

Оценка случайности расхождений
показателей выборочных наблюдений

Если при n>30 коэффициент t<3, то делается
вывод о случайности расхождений.
Если n≤ 30 , то полученное
значение t сравнивают с табличным,
определяемым по таблице распределения
Стьюдента
Если,
расхождение считается существенным.
Если
,
расхождение считается случайным.

Методы переноса выборочных данных на
генеральную совокупность

метод взвешивания;
метод перевзвешивания;
метод заполнения случайным подбором
в классах замещения.

Источник

Повторный и бесповторный отбор.
Ошибка выборки

Краткая теория

На основании выборочных данных дается оценка статистических
показателей по всей (генеральной) совокупности. Подобное возможно, если выборка
основывается на принципах случайности отбора и репрезентативности
(представительности) выборочных данных. Каждая единица генеральной совокупности
должна иметь равную возможность (вероятность) попасть в выборку.

При формировании выборочной совокупности используются следующие
способы отбора: а) собственно-случайный отбор; б) механическая выборка; в)
типический (районированный) отбор; г) многоступенчатая (комбинированная)
выборка; д) моментно-выборочное наблюдение.

Выборка может осуществляться по схеме повторного и бесповторного
отбора.

В первом случае единицы совокупности, попавшие в выборку, снова
возвращаются в генеральную, а во втором случае – единицы совокупности, попавшие
в выборку, в генеральную совокупность уже не возвращаются.

Выборка может осуществляться отдельными единицами или сериями
(гнездами).

Собственно-случайная выборка

Отбор в этом случае производится либо по жребию, либо по таблицам
случайных чисел.

На основании приемов классической выборки решаются следующие
задачи:

а) определяются границы среднего значения показателя по генеральной
совокупности;

б) определяются границы доли признака по генеральной совокупности.

Предельная ошибка средней при собственно-случайном отборе
исчисляется по формулам:

а) при повторном отборе:

б) при бесповторном отборе:

где

– численность выборочной совокупности;

– численность генеральной совокупности;

– дисперсия признака;

– критерий кратности ошибки: при

;
при

Значения

определяются

по таблице функции Лапласа.

Границы (пределы) среднего значения признака по генеральной
совокупности определяются следующим неравенством:

где

– среднее значение признака по выборочной
совокупности.

Предельная ошибка доли при собственно-случайном отборе определяется
по формулам:

а) при повторном отборе:

при бесповторном отборе:

где

– доля единиц совокупности с заданным
значением признака в обзей численности выборки,

– дисперсия доли признака.

Границы (пределы) доли признака по всей (генеральной) совокупности
определяются неравенством:

где

– доля признака по генеральной совокупности.

Типическая (районированная) выборка

Особенность этого вида
выборки заключается в том, что предварительно генеральная совокупность по
признаку типизации разбивается на частные группы (типы, районы), а затем в
пределах этих групп производится выборка.

Предельная ошибка средней
при типическом бесповторном отборе определяется по формуле:

где

– средняя из внутригрупповых дисперсий

по каждой типичной группе.

При пропорциональном отборе из групп генеральной совокупности
средняя из внутригрупповых дисперсий определяется по формуле:

где

– численности единиц совокупности групп по выборке.

Границы (пределы) средней по генеральной совокупности на основании
данных типической выборки определяются по тому же неравенству, что при
собственно-случайной выборке. Только предварительно необходимо вычислить общую
выборочную среднюю

из частных выборочных средних

.
Для случая пропорционального отбора это определяется по формуле:

При непропорциональном отборе средняя из внутригрупповых дисперсий вычисляется по
формуле:

где

– численность единиц групп по генеральной
совокупности.

Общая выборочная средняя в этом случае определяется по формуле:

Предельная ошибка доли
признака при типическом бесповторном отборе определяется формулой:

Средняя дисперсия доли
признака из групповых дисперсий доли

при
типической пропорциональной выборке вычисляется по формуле:

Средняя доля признака по
выборке из показателей групповых долей рассчитывается формуле:

Средняя дисперсия доли при
непропорциональном типическом отборе определяется следующим образом:

а средняя доля признака:

Формулы ошибок выборки при типическом повторном отборе будут те же,
то и для случая бесповторного отбора. Отличие заключается только в том, что в
них будет отсутствовать по корнем сомножитель

Серийная выборка

Серийная ошибка выборки
может применяться в двух вариантах:

а) объем серий различный

б) все серии имеют
одинаковое число единиц (равновеликие серии).

Наиболее распространенной
в практике статистических исследований является серийная выборка с
равновеликими сериями. Генеральная совокупность делится на одинаковые по объему
группы-серии

и
производится отбор не единиц совокупности, а серий

. Группы (серии) для обследования отбирают в
случайном порядке или путем механической выборки как повторным, так и
бесповторными способами. Внутри каждой отобранной серии осуществляется сплошное
наблюдение. Предельные ошибки выборки

при
серийном отборе исчисляются по формулам:

а) при повторном отборе

б) при бесповторном отборе

где

– число
серий в генеральной совокупности;

– число
отобранных серий;

– межсерийная дисперсия, исчисляемая для случая равновеликих
серий по формуле:

где

–
среднее значение признака в каждой из отобранных серий;

– межсерийная
средняя, исчисляемая для случая равновеликих серий по формуле:

Определение численности выборочной совокупности

При проектировании
выборочного наблюдения важно наряду с организационными вопросами решить одну из
основных постановочных задач: какова должна быть необходимая численность
выборки с тем, чтобы с заданной степенью точности (вероятности) заранее
установленная ошибка выборки не была бы превзойдена.

Примеры решения задач

Задача 1

На основании результатов проведенного на заводе 5%
выборочного наблюдения (отбор случайный, бесповторный) получен следующий ряд
распределения рабочих по заработной плате:

Группы рабочих по размеру заработной платы, тыс.р.	до 200	200-240	240-280	280-320	320 и выше	Итого
Число рабочих	33	35	47	45	40	200

На основании приведенных данных определите:

1) с вероятностью 0,954 (t=2) возможные пределы, в которых
ожидается средняя заработная плата рабочего в целом по заводу (по генеральной
совокупности);

2) с вероятностью 0,997 (t=3) предельную ошибку и границы доли
рабочих с заработной платой от 320 тыс.руб. и выше.

Решение

На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:

ВКонтакте
WhatsApp
Telegram

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

Вычислим среднюю з/п: Для этого просуммируем произведения середин
интервалов и соответствующих частот, и полученную сумму разделим на сумму
частот.

2) Выборочная дисперсия:

Найдем доверительный интервал для средней. Предельная ошибка выборочной
средней считается по формуле:

где

—

аргумент функции Лапласа.

Искомые возможные пределы, в которых ожидается средняя заработная плата
рабочего в целом по заводу:

Найдем доверительный интервал для выборочной доли. Предельная ошибка
выборочной доли считается по формуле:

Доля рабочих с з/п от 320 тыс.р.:

Искомые границы доли рабочих с заработной платой от 320 тыс.руб. и выше:

Задача 2

В
городе 23560 семей. В порядке механической выборки предполагается определить
количество семей в городе с числом детей трое и более. Какова должна быть
численность выборки, чтобы с вероятностью 0,954 ошибка выборки не превышала
0,02 человека. На основе предыдущих обследований известно, что дисперсия равна
0,3.

Решение

Численность
выборки можно найти по формуле:

В нашем случае:

Вывод к задаче

Таким образом численность
выборки должна составить 2661 чел.

Задача 3

С
целью определения средней месячной заработной платы персонала фирмы было
проведено 25%-ное выборочное обследование с отбором
единиц пропорционально численности типических групп. Для отбора сотрудников
внутри каждого филиала использовался механический отбор. Результаты
обследования представлены в следующей таблице:

Номер филиала	Средняя месячная заработная плата, руб.	Среднее квадратическое отклонение, руб.	Число сотрудников, чел.
1	870	40	30
2	1040	160	80
3	1260	190	140
4	1530	215	190

С
вероятностью 0,954 определите пределы средней месячной заработной платы всех
сотрудников гостиниц.

Решение

Предельная
ошибка выборочной средней:

Средняя
из внутригрупповых дисперсий:

Получаем:

Средняя
месячная заработная плата по всей совокупности филиалов:

Искомые
пределы средней месячной заработной платы:

Вывод к задаче

Таким
образом с вероятностью 0,954 средняя месячная заработная плата всех сотрудников
гостиниц находится в пределах от 1294,3 руб. до 1325,7 руб.

Источник

11.2. Оценка результатов выборочного наблюдения

11.2.1. Средняя и предельная ошибки выборки. Построение доверительных границ для средней и доли

Средняя ошибка выборки показывает, насколько отклоняется в среднем параметр выборочной совокупности от соответствующего параметра генеральной. Если рассчитать среднюю из ошибок всех возможных выборок определенного вида заданного объема (n), извлеченных из одной и той же генеральной совокупности, то получим их обобщающую характеристику — среднюю ошибку выборки ( $\mu$ ).

В теории выборочного наблюдения выведены формулы для определения $\mu$ , которые индивидуальны для разных способов отбора (повторного и бесповторного), типов используемых выборок и видов оцениваемых статистических показателей.

Например, если применяется повторная собственно случайная выборка, то $\mu$ определяется как:

— при оценивании среднего значения признака;

— если признак альтернативный, и оценивается доля.

При бесповторном собственно случайном отборе в формулы вносится поправка (1 — n/N):

— для среднего значения признака;

— для доли.

Вероятность получения именно такой величины ошибки всегда равна 0,683. На практике же предпочитают получать данные с большей вероятностью, но это приводит к возрастанию величины ошибки выборки.

Предельная ошибка выборки ( $\Delta$ ) равна t-кратному числу средних ошибок выборки (в теории выборки принято коэффициент t называть коэффициентом доверия):

$\Delta =t \mu$ .

Если ошибку выборки увеличить в два раза (t = 2), то получим гораздо большую вероятность того, что она не превысит определенного предела (в нашем случае — двойной средней ошибки) — 0,954. Если взять t = 3, то доверительная вероятность составит 0,997 — практически достоверность.

Уровень предельной ошибки выборки зависит от следующих факторов:

степени вариации единиц генеральной совокупности;
объема выборки;
выбранных схем отбора (бесповторный отбор дает меньшую величину ошибки);
уровня доверительной вероятности.

Если объем выборки больше 30, то значение t определяется по таблице нормального распределения, если меньше — по таблице распределения Стьюдента.

Приведем некоторые значения коэффициента доверия из таблицы нормального распределения.

Таблица
11.2.

Значение доверительной вероятности P	0,683	0,954	0,997
Значение коэффициента доверия t	1,0	2,0	3,0

Доверительный интервал для среднего значения признака и для доли в генеральной совокупности устанавливается следующим образом:

Итак, определение границ генеральной средней и доли состоит из следующих этапов:

Ошибки выборки при различных видах отбора

Собственно случайная и механическая выборка. Средняя ошибка собственно случайной и механической выборки находятся по формулам, представленным в табл. 11.3.

Таблица
11.3.
Формулы для расчета средней ошибки собственно случайной и механической выборки ( $\mu$ )

где $\sigma^{2}$ — дисперсия признака в выборочной совокупности.

Пример 11.2. Для изучения уровня фондоотдачи было проведено выборочное обследование 90 предприятий из 225 методом случайной повторной выборки, в результате которого получены данные, представленные в таблице.

Таблица
11.4.

Уровень фондоотдачи, руб.	До 1,4	1,4-1,6	1,6-1,8	1,8-2,0	2,0-2,2	2,2 и выше	Итого
Количество предприятий	13	15	17	15	16	14	90

В рассматриваемом примере имеем 40%-ную выборку (90 : 225 = 0,4, или 40%). Определим ее предельную ошибку и границы для среднего значения признака в генеральной совокупности по шагам алгоритма:

По результатам выборочного обследования рассчитаем среднее значение и дисперсию в выборочной совокупности:

Таблица
11.5.

Результаты наблюдения	Расчетные значения
уровень фондоотдачи, руб., x_i	количество предприятий, f_i	середина интервала, x_i^\xb4	x_i^\xb4f_i	x_i^\xb4²f_i
До 1,4	13	1,3	16,9	21,97
1,4-1,6	15	1,5	22,5	33,75
1,6-1,8	17	1,7	28,9	49,13
1,8-2,0	15	1,9	28,5	54,15
2,0-2,2	16	2,1	33,6	70,56
2,2 и выше	14	2,3	32,2	74,06
Итого	90	—	162,6	303,62

Выборочная средняя

Выборочная дисперсия изучаемого признака

Определяем среднюю ошибку повторной случайной выборки
Зададим вероятность, на уровне которой будем говорить о величине предельной ошибки выборки. Чаще всего она принимается равной 0,999; 0,997; 0,954.

Для наших данных определим предельную ошибку выборки, например, с вероятностью 0,954. По таблице значений вероятности функции нормального распределения (см. выдержку из нее, приведенную в Приложении 1) находим величину коэффициента доверия t, соответствующего вероятности 0,954. При вероятности 0,954 коэффициент t равен 2.

Предельная ошибка выборки с вероятностью 0,954 равна
$\delta_{x}= t\mu_{x}= 2*0.035 = 0.07$
Найдем доверительные границы для среднего значения уровня фондоотдачи в генеральной совокупности

Таким образом, в 954 случаях из 1000 среднее значение фондоотдачи будет не выше 1,88 руб. и не ниже 1,74 руб.

Выше была использована повторная схема случайного отбора. Посмотрим, изменятся ли результаты обследования, если предположить, что отбор осуществлялся по схеме бесповторного отбора. В этом случае расчет средней ошибки проводится по формуле

Тогда при вероятности равной 0,954 величина предельной ошибки выборки составит:

$\delta_{x}= t\mu_{x}= 2*0.027 = 0.054$

Доверительные границы для среднего значения признака при бесповторном случайном отборе будут иметь следующие значения:

Сравнив результаты двух схем отбора, можно сделать вывод о том, что применение бесповторной случайной выборки дает более точные результаты по сравнению с применением повторного отбора при одной и той же доверительной вероятности. При этом, чем больше объем выборки, тем существеннее сужаются границы значений средней при переходе от одной схемы отбора к другой.

По данным примера определим, в каких границах находится доля предприятий с уровнем фондоотдачи, не превышающим значения 2,0 руб., в генеральной совокупности:

рассчитаем выборочную долю.

Количество предприятий в выборке с уровнем фондоотдачи, не превышающим значения 2,0 руб., составляет 60 единиц. Тогда

m = 60, n = 90, w = m/n = 60 : 90 = 0,667;

рассчитаем дисперсию доли в выборочной совокупности

$\sigma_{w}^{2}= w(1 - w) = 0,667(1 - 0,667) = 0,222$ ;

средняя ошибка выборки при использовании повторной схемы отбора составит

Если предположить, что была использована бесповторная схема отбора, то средняя ошибка выборки с учетом поправки на конечность совокупности составит

зададим доверительную вероятность и определим предельную ошибку выборки.

При значении вероятности Р = 0,997 по таблице нормального распределения получаем значение для коэффициента доверия t = 3 (см. выдержку из нее, приведенную в Приложении 1):

$\delta_{x}= t\mu_{x}= 3*0.04 = 0.12$

установим границы для генеральной доли с вероятностью 0,997:

Таким образом, с вероятностью 0,997 можно утверждать, что в генеральной совокупности доля предприятий с уровнем фондоотдачи, не превышающим значения 2,0 руб., не меньше, чем 54,7%, и не больше 78,7%.

Типическая выборка. При типической выборке генеральная совокупность объектов разбита на k групп, тогда

N₁ + N₂ + … + N_i + … + N_k = N.

Объем извлекаемых из каждой типической группы единиц зависит от принятого способа отбора; их общее количество образует необходимый объем выборки

n₁ + n₂ + … + n_i + … + n_k = n.

Существуют следующие два способа организации отбора внутри типической группы: пропорциональной объему типических групп и пропорциональной степени колеблемости значений признака у единиц наблюдения в группах. Рассмотрим первый из них, как наиболее часто используемый.

Отбор, пропорциональный объему типических групп, предполагает, что в каждой из них будет отобрано следующее число единиц совокупности:

n = n_i · N_i/N

где n_i — количество извлекаемых единиц для выборки из i-й типической группы;

n — общий объем выборки;

N_i — количество единиц генеральной совокупности, составивших i-ю типическую группу;

N — общее количество единиц генеральной совокупности.

Отбор единиц внутри групп происходит в виде случайной или механической выборки.

Формулы для оценивания средней ошибки выборки для среднего и доли представлены в табл. 11.6.

Таблица
11.6.
Формулы для расчета средней ошибки выборки ( $\mu$ ) при использовании типического отбора, пропорционального объему типических групп

Здесь $\sigma^{2}$ — средняя из групповых дисперсий типических групп.

Пример 11.3. В одном из московских вузов проведено выборочное обследование студентов с целью определения показателя средней посещаемости вузовской библиотеки одним студентом за семестр. Для этого была использована 5%-ная бесповторная типическая выборка, типические группы которой соответствуют номеру курса. При отборе, пропорциональном объему типических групп, получены следующие данные:

Таблица
11.7.

Номер курса	Всего студентов, чел., N_i	Обследовано в результате выборочного наблюдения, чел., n_i	Среднее число посещений библиотеки одним студентом за семестр, x_i	Внутригрупповая выборочная дисперсия, $\sigma_{i}^{2}$
1	650	33	11	6
2	610	31	8	15
3	580	29	5	18
4	360	18	6	24
5	350	17	10	12
Итого	2 550	128	8	—

Число студентов, которое необходимо обследовать на каждом курсе, рассчитаем следующим образом:

общий объем выборочной совокупности:
n = 2550/130*5 =128 (чел.);
количество единиц, отобранных из каждой типической группы:

аналогично для других групп:

n₂ = 31 (чел.);

n₃ = 29 (чел.);

n₄ = 18 (чел.);

n₅ = 17 (чел.).

Проведем необходимые расчеты.

Выборочная средняя, исходя из значений средних типических групп, составит:
Средняя из внутригрупповых дисперсий
Средняя ошибка выборки:

С вероятностью 0,954 находим предельную ошибку выборки:

$\delta_{x} = t\mu_{x} = 2*0.334 = 0.667$
Доверительные границы для среднего значения признака в генеральной совокупности:

Таким образом, с вероятностью 0,954 можно утверждать, что один студент за семестр посещает вузовскую библиотеку в среднем от семи до девяти раз.

Малая выборка. В связи с небольшим объемом выборочной совокупности те формулы для определения ошибок выборки, которые использовались нами ранее при «больших» выборках, становятся неподходящими и требуют корректировки.

Среднюю ошибку малой выборки определяют по формуле

Предельная ошибка малой выборки:

$\delta_{MB}= t\mu_{MB}$

Распределение значений выборочных средних всегда имеет нормальный закон распределения (или приближается к нему) при п > 100, независимо от характера распределения генеральной совокупности. Однако в случае малых выборок действует иной закон распределения — распределение Стьюдента. В этом случае коэффициент доверия находится по таблице t-распределения Стьюдента в зависимости от величины доверительной вероятности Р и объема выборки п. В Приложении 1 приводится фрагмент таблицы t-распределения Стьюдента, представленной в виде зависимости доверительной вероятности от объема выборки и коэффициента доверия t.

Пример 11.4. Предположим, что выборочное обследование восьми студентов академии показало, что на подготовку к контрольной работе по статистике они затратили следующее количество часов: 8,5; 8,0; 7,8; 9,0; 7,2; 6,2; 8,4; 6,6.

Оценим выборочные средние затраты времени и построим доверительный интервал для среднего значения признака в генеральной совокупности, приняв доверительную вероятность равной 0,95.

Среднее значение признака в выборке равно
Значение среднего квадратического отклонения составляет
Средняя ошибка выборки:
Значение коэффициента доверия t = 2,365 для п = 8 и Р = 0,95 .
Предельная ошибка выборки:
$\delta_{MB}= t\mu_{MB}=2,365*0,344 = 0,81356 ~ 0,81 (ч)$
Доверительный интервал для среднего значения признака в генеральной совокупности:

То есть с вероятностью 0,95 можно утверждать, что затраты времени студента на подготовку к контрольной работе находятся в пределах от 6,9 до 8,5 ч.

11.2.2. Определение численности выборочной совокупности

Перед непосредственным проведением выборочного наблюдения всегда решается вопрос, сколько единиц исследуемой совокупности необходимо отобрать для обследования. Формулы для определения численности выборки выводят из формул предельных ошибок выборки в соответствии со следующими исходными положениями (табл. 11.7):

вид предполагаемой выборки;
способ отбора (повторный или бесповторный);
выбор оцениваемого параметра (среднего значения признака или доли).

Кроме того, следует заранее определиться со значением доверительной вероятности, устраивающей потребителя информации, и с размером допустимой предельной ошибки выборки.

Таблица
11.8.
Формулы для определения численности выборочной совокупности

Примечание: при использовании приведенных в таблице формул рекомендуется получаемую численность выборки округлять в большую сторону для обеспечения некоторого запаса в точности.

Пример 11.5. Рассчитаем, сколько из 507 промышленных предприятий следует проверить налоговой инспекции, чтобы с вероятностью 0,997 определить долю предприятий с нарушениями в уплате налогов. По данным прошлого аналогичного обследования величина среднего квадратического отклонения составила 0,15; размер ошибки выборки предполагается получить не выше, чем 0,05.

При использовании повторного случайного отбора следует проверить

При бесповторном случайном отборе потребуется проверить

Как видим, использование бесповторного отбора позволяет проводить обследование гораздо меньшего числа объектов.

Пример 11.6. Планируется провести обследование заработной платы на предприятиях отрасли методом случайного бесповторного отбора. Какова должна быть численность выборочной совокупности, если на момент обследования в отрасли число занятых составляло 100 000 чел.? Предельная ошибка выборки не должна превышать 100 руб. с вероятностью 0,954. По результатам предыдущих обследований заработной платы в отрасли известно, что среднее квадратическое отклонение составляет 500 руб.

Следовательно, для решения поставленной задачи необходимо включить в выборку не менее 100 человек.

Источник

7.4. Влияние вида выборки на величину ошибки выборки

Как указывалось в п. 7.2, при проведении выборочного наблюдения используются различные способы формирования выборочной совокупности: случайный отбор — повторный или бесповторный, механический, серийный, типический. Вид выборки влияет на величину ошибки выборки. При бесповторном отборе формула средней ошибки выборки дополняется множителем

который корректирует величину ошибки выборки и в связи с изменением состава совокупности и вероятности попадания единиц в выборку. В серийной выборке дисперсия определяется как колеблемость между сериями:

(7.14)

где x̌_j — среднее значение признака х в у-й серии;

х̅ — среднее значение в целом по выборке;

r — число отобранных серий.

Формула (7.14) предполагает равенство серий по числу единиц, если это условие не выполняется, то в числитель выражения (7.14) вводится вес — число единиц в j-й серии, f_j; тогда в знаменателе указывается не r, а . Межсерийная дисперсия представляет часть общей дисперсии признака х, и потому ее использование направлено на уменьшение ошибки выборки. Однако значение г намного меньше п, так как число отобранных гнезд намного меньше числа единиц наблюдения. Этот фактор увеличивает ошибку выборки. Его действие более значительно, нежели понижающее влияние межсерийной дисперсии — в результате ошибка серийной выборки в среднем больше ошибки выборки при отборе единицами.

При типическом отборе (стратифицированная или районированная выборка) дисперсия рассчитывается как средняя из внутрирайонных дисперсий:

(7.15′)

где s²_ji — выборочная дисперсия признака х в j-м районе;

где п_j — объем выборки в j-м районе;

т — число районов.

Очевидно, что по правилу сложения дисперсий величина s² меньше, чем величина общей дисперсии.

Величина ошибки районированной выборки меньше величины ошибки простой (нерайонированной выборки).

Часто используется сочетание районированного отбора с отбором сериями. Такой вид выборки обеспечивает преимущества в организации выборки и уменьшение ошибки выборки. Дисперсия такой выборки представляет среднюю из межсерийных дисперсий для каждого j-го района:

(7.16)

где s²_x_̌_j — межсерийная дисперсия в j-м районе;

х̌_ij — средняя в i-й серии j-го района;

х̅_j — средняя ву-м районе;

r— число серий, отобранных в j-м районе;

т — число районов.

Табл. 7.2 содержит формулы средней ошибки выборки для выборочной средней и выборочной относительной величины для разных видов выборки. В приведенных формулах требуют пояснения выражения дисперсий выборочной относительной величины.

При нерайонированной серийной выборке

где р_j — доля единиц определенной категории в у-й серии;

р — доля единиц этой категории в выборке.

Таблица 7.2

Формулы средней ошибки выборочной средней и выборочной относительной величины

Рассмотрим на примере влияние вида выборки на величину ошибки выборки. Исходные данные представлены в табл. 7.3.

Таблица 7.3

Показатели 60 предприятий легкой промышленности Санкт-Петербурга (по данным статистической отчетности за I полугодие 1995 г.)

№ пп	Форма Собственнос-ти	Оборачиваемость запасов, х₁	Коэффициент покрытия, х₂	№ пп	Форма собственности	Оборачиваемость запасов, х₁	Коэффициент покрытия, х₂
1	государственная	5,65	0,22	31	Частная	1,23	1,18
2	«	2,86	0,35	32	«	0,82	1,59
3	«	1,61	1,06	33	«	2,83	0,74
4	«	3,99	1,01	34	«	1,83	1,52
5	«	2,17	8,88	35	«	2,26	2,43
6	«	1,52	1,06	36	«	2,33	3,28
7	«	0,40	0,99	37	«	2,35	1,13
8	«	2,18	1,07	38	«	1,68	0,89
9	«	1,36	4,62	39	«	2,00	1,67
10	«	3,69	1,40	40	«	2,64	1,48
11	частная	0,45	1,34	41	«	2,75	1,51
12	«	1,0	1,16	42	«	3,29	5,96
13	«	2,05	2,00	43	«	1,6	1,38
14	«	2,36	1,43	44	«	1,90	2,39
15	«	4,90	1,76	45	«	3,27	3,62
16	«	3,12	1,26	46	«	3,49	0,46
17	«	1,36	1,89	47	«	2,92	1,26
18	«	1,56	12,36	48	смешання	3,22	0,78
19	«	4,84	1,23	49	«	2,61	1,67
20	«	1,23	3,26	50	«	5,17	0,95
21	«	0,81	2,22	51	«	8,63	0,96
22	«	0,7	1,16	52	«	1,06	2,51
23	«	0,87	1,21	53	«	2,13	3,49
24	«	0,20	1,45	54	«	2,03	1,22
25	«	1,71	4,04	55	«	1,82	2,92
26	«	1,83	2,07	56	«	3,12	1,54
27	«	1,32	0,69	57	«	0,77	0,97
28	«	1,95	1,97	58	«	4,15	0,93
29	«	1,46	1,31	59	«	3,62	1,34
30	«	2,96	5,32	60	«	3,89	3,51

Предприятия легкой промышленности примем за генеральную совокупность. Ее характеристики:

численность N = 60;

генеральные средние: μ₁ = 2,40 число оборотов;

μ₂ = 1,424;

генеральные дисперсии: σ²₁ = 2,24;

σ²₂ = 4,38;

средние квадратические σ₁ = 1,49 оборотов;

отклонения: σ₂ = 2,09.

Остановимся на смысле характеристик предприятий: оборачиваемость запасов рассчитывается делением продолжительности периода (полгода) на среднюю продолжительность одного периода оборота запасов. Очевидно, чем скорее оборачиваются запасы, тем выше их отдача. Коэффициент покрытия рассчитывается как отношение суммы всех источников покрытия запасов к стоимости запасов. Если значение этого показателя меньше единицы, то текущее финансовое состояние предприятия рассматривается как неустойчивое. В нашем примере вариация этого признака примерно в 2 раза превосходит вариацию предприятий по уровню оборачиваемости запасов: ν₂ = 147%, ν₁ = 62%.

Произведем 30%-ную выборку. Объем выборки составит п = 20 предприятий. При формировании выборки методом механического отбора каждое третье предприятие попадет в выборку. Отбор начинаем с полушага отбора, т. е. первым предприятием, попавшим в выборку, является второе по списку. Средние по выборке равны:

оборачиваемость запасов x̅₁ =2,16 оборотов, коэффициент покрытия x̅₂=2,01.

Средняя ошибка выборочной средней оборачиваемости запасов

оборотов.

Средняя ошибка выборочного среднего коэффициента покрытия

С вероятностью 0,954 можно утверждать, что средняя оборачиваемость запасов на предприятиях легкой промышленности не ниже

x̅₁ — 2s_x₁ = 2,16 — 0,55 = 1,61 оборотов и не выше x̅₁+2s_x₁ = 2,16 + 0,55 = 2,71 оборотов.

Действительно генеральная средняя (μ₁ = 2,40) попадает в этот интервал.

Фактическая ошибка репрезентативности

оборотов.

Эта величина меньше предельной ошибки выборки, гарантированной с принятой доверительной вероятностью, 0,36 < 0,55. Следовательно, выборка репрезентативна по этому признаку.

Вычислим предельную ошибку выборки коэффициента покрытия и определим доверительный интервал для этой характеристики. Его нижняя граница с той же вероятностью

;

верхняя граница:

Генеральная средняя (μ₂ = 1,424) так же попадает в доверительный интервал.

Фактическая ошибка репрезентативности составляет:

Эта величина меньше предельной ошибки выборки (0,77), что дает основание считать выборку репрезентативной и по этому признаку.

В генеральной совокупности доля единиц с неустойчивым финансовым положением (х₂ < 1) составила в выборке

Доверительный интервал для оценки доли таких предприятий в генеральной совокупности составляет с вероятностью 0,954:

0,15 ± 0,076,

т. е. таких предприятий должно быть не меньше 7,4% и не больше 22,6%. Фактически их оказалось 20% от общего числа предприятии, т. е. выборка дает репрезентативный результат и по этому показателю.

Выполненная выборка формировалась как простая бесповторная механическая. Однако, наверняка статистик будет стремиться учесть структуру генеральной совокупности, поэтому более естественной была бы выборка, учитывающая выделение предприятий разных форм собственности. Тогда выборка должна быть районированной.

Рассмотрим пример. Генеральная совокупность состоит из 11 государственных предприятий, 36 частных, 13 смешанных. В выборке эти пропорции соблюдаются следующим образом: отобраны по 4 предприятия государственных и смешанных и 12 — частных:

Предприятия	Генеральные характеристики	Выборочные характеристики
средние	доли	средние	доли
Государственные	μ₁= 2.35	π₁ = 0,27	х̅₁ = 1,92	Р₁ = 0,25
Частные	μ₁=2,11	π₂ = 0,11	х̅₁ = 1,79	Р₂=0,08
Смешанные	μ₁ =3,25	π₃ = 0,38	х̅₁ =3,51	Рз — 0,25

Средняя из внутрирайонных дисперсий, рассчитанных по каждой группе предприятий в генеральной совокупности:

Эта величина меньше общей дисперсии без учета районирования (σ² = 2,24). Следовательно, и величина ошибки выборки при районированном отборе будет меньше:

Итак, с вероятностью 0,954 генеральная средняя оборачиваемости запасов находится в интервале 2,16 ± 0,294; 1,866 £ μ £ 2,454.

Чтобы понять, насколько целесообразно в том или ином случае применение районированного отбора, можно воспользоваться корреляционным отношением ц. Согласно правилу сложения дисперсий средняя из внутригрупповых дисперсий может быть представлена как

где h² — квадрат корреляционного отношения, равный б²:s².

Следовательно, применение районированной (типической) выборки изменяет предельную ошибку на . В нашем примере для первой переменной (оборачиваемость) имеем:

Сопоставим полученный результат с изменением предельной ошибки выборки: (без учета районирования) =0,55;

∆_x (при районировании) = 0,294, т. е. ошибка уменьшилась примерно вполовину.

Корреляционное отношение используется и при корректировке величины

(7.18′)

Тогда при вероятности 0,954 и t = 2; t*=2 — Ö0̅,8̅6̅ = 1,85, т. е. вместо t = 2 достаточно взять t = 1,85.

Многие выборки формируются как многоступенчатые. Ошибка многоступенчатой выборки может быть представлена как

Она складывается из ошибок отдельных ступеней. Поэтому практически используется не больше 2-3 ступеней отбора.

Средняя ошибка выборки при двухступенчатом отборе рассчитывается по формуле

где s_x₁ ² — дисперсия признака х по совокупности «крупных» единиц;

s_x₂² — дисперсия признака х в каждой из отобранных «крупных» единиц;

п_i — число отобранных единиц наблюдения в <-й «крупной» единице;

т — число отобранных «крупных» единиц.

Таким образом, применение многоступенчатой выборки улучшает организацию выборки, но увеличивает ее ошибку.

Кроме рассмотренных, применяется многофазовая выборка, когда одни сведения собираются на основе изучения всех единиц выборки, а другие — только на основании изучения некоторых из этих единиц, отобранных так, что они составляют подвыборки из единиц первоначальной выборки.

При периодическом повторении выборочных обследований с целью изучения динамики явлений применяются либо независимые выборки — через определенные промежутки времени отбор каждый раз производится независимо от предыдущих выборок; либо фиксированные выборки — в этом случае повторные обследования проводятся по одной и той же выборке. В связи с тем, что в фиксированной выборке могут происходить изменения (прежде всего за счет выбытия единиц) практикуют периодическую адаптацию фиксированной выборки происходящим изменениям. Чаще для целей изучения динамики используется промежуточный вариант — ротационная выборка (частичное замещение). При этом нужно следовать определенному плану замещения, например, каждый раз замещать четверть выборки, тогда каждая первоначальная единица останется в выборке в четырех следующих друг за другом обследованиях.

Названные виды выборок ориентированы на отбор конкретных материальных явлений. Кроме них следует назвать как особый вид выборки метод моментных наблюдений.Сущность метода моментных наблюдений состоит в периодической фиксации состояний .наблюдаемых единиц в отобранные моменты времени. Расчет объема такой выборки дает количество моментов. Этот вид выборочного наблюдения применяется при изучении использования производственного оборудования, либо рабочего времени (см. п. 7.13).

7.5. Задачи, решаемые при применении выборочного метода

При применении выборочного наблюдения возникают три основные задачи:

• определение объема выборки, необходимого для получения требуемой точности результатов с заданной вероятностью;

• определение возможного предела ошибки репрезентативности, гарантированного с заданной вероятностью, и сравнение его с величиной допустимой погрешности.

• определение вероятности того, что Ошибка выборки не превысит допустимой погрешности.

Все эти задачи решаются на основе теоремы Чебышева, согласно которой Р {[ х — μ | < e } ³ 1 — h, когда п — достаточно большое число; e и h — сколь угодно малые положительные числа. Это соотношение, как было показано в п. 7.3, может быть выражено через формулу предельной ошибки выборки ∆_x = ts_x или ∆_p = ts. Решение указанных задач зависит от того, какие величины в формуле предельной ошибки заданы, а какие нужно найти.

Объем выборки рассчитывается на стадии проектирования выборочного обследования. Так как

то

, (7.20)

где ∆ — допустимая погрешность,, которая задается исследователем исходя из требуемой точности результатов проектируемой выборки;

t — табличная величина, соответствующая заданной доверительной вероятности F(t), с которой будут гарантированы оценки генеральной совокупности по данным выборочного обследования;

σ² — генеральная дисперсия.

Последняя величина, как правило, неизвестна. Используются какие-либо ее оценки: результаты прошлых обследований той же совокупности, если ее структура и условия развития достаточно стабильны, или же зная примерную величину средней, находят дисперсию из соотношения ;

если известны x_max и х_min, то можно определить среднее квадратическое отклонение в соответствии с правилом «трех сигм»

так как в нормальном распределении в размахе вариации «укладывается» 6σ(±3σ). Если распределение заведомо асимметричное, то

Для относительной величины принимают максимальную величину дисперсии σ²_max= 0,5∙0,5 = 0,25.

При расчете п не следует гнаться за большими значениями t и малыми значениями ∆, так как это приведет к увеличению объема выборки, а следовательно, к увеличению затрат средств, труда и времени, вовсе не являющемуся необходимым.

Формула (7.20) не учитывает бесповторности отбора и дает максимальную величину выборки, которую можно скорректировать «на бесповторность». Так как

то на основе (7.20) получаем выражение скорректированного объема выборки (п):

, (7.21)

где

При больших размерах генеральной совокупности скорректированный Объем выборки незначительно отличается от n₀.

Например, для изучения структуры и стоимости покупок в универмаге из 10 000 покупателей следует отобрать определенное число человек, которое бы обеспечивало с вероятностью 0,95 определение средней стоимости покупок с точностью не менее 2 тыс. руб. Дисперсию примем по прошлому обследованию равной 625.

человек;

тогда скорректированная численность

человек (≈ 570 человек).

При проектировании районированной выборки рассчитанный объем выборки распределяют пропорционально численности районов (пропорциональный отбор):

, (7.22)

где п_i — объем выборки для i-го района;

N_i — объем i-го района в генеральной совокупности;

п — общий объем выборки;

N — общий объем генеральной совокупности.

При различиях в однородности выделенных районов лучшие результаты дает распределение запланированного объема выборки между районами не только с учетом их объема, но и с учетом дисперсии признака (оптимальный отбор). В этом случае объем выборки в i-м районе определяется как

, (7.23)

где σ²_i — дисперсия признака х в i-м районе.

При любом виде проектируемой выборки расчет объема выборки начинают по формуле повторного отбора (7.20). Если в результате расчета п доля отбора превысит 5%, проводят второй вариант расчета по формуле бесповторного отбора, либо по формуле (7.21), либо как

Если доля отбора меньше 5%, к формуле бесповторного отбора не переходят, так как это не скажется существенно на величине п.

Выборка должна быть такой, чтобы выборочные показатели по всем основным характеристикам были репрезентативны. Поэтому численность выборки рассчитывают многократно исходя из допустимых ошибок разных показателей, значения которых в генеральной совокупности известны.

Например, при выборочном учете детей школьного возраста требуется определить число семей, которые надо обследовать. При этом надо учесть: а) число детей в возрасте 6-7 лет, б) число детей в возрасте 6-15 лет; в) число детей в возрасте 16-17 лет;

г) среднедушевой доход (например, для решения вопроса о строительстве базы отдыха).

Так как репрезентируемые признаки могут иметь разную размерность, то допустимая погрешность для каждого их них задается в виде относительной величины (∆ : х̅) (например, планируется, что в определении среднего размера семьи ошибка должна быть не больше 2%, в определении дохода — не больше 3% и т.д.). В этом случае вместо дисперсии в формуле (7.20) берется квадрат коэффициента вариации.

Вычислив значение п, на основе каждой из характеристик получаем разные объемы выборки: 1200; 300; 700; 100. Обследовать необходимо 1200 семей, т.е. из рассчитанных численностей берется максимальная. При резких различиях необходимых объемов выборки для разных вопросов программы проводится многофазный отбор. В рассмотренном примере среднедушевой доход достаточно учитывать в одной из каждых 12 семей, попавших в выборку.

Многофазный отбор, как правило, довольно сложно организовать, может быть нарушен принцип случайности отбора. Поэтому для обеспечения репрезентативности оказывается выгоднее затратить больше средств на учет большего числа единиц совокупности. Многофазный отбор целесообразно применять, если соотношение между рассчитанными объемами выборки по крайней мере 1:6.

Поскольку расчет необходимой численности выборки основан не на точных, а на предположительных данных о колеблемости в совокупности, следует соблюдать следующие рекомендации: абсолютную величину п округлять только вверх; долю отбора округлять только вниз, т.е. из предосторожности планировать несколько больший объем выборки, чем показывают расчеты.

Объем многоступенчатой выборки рекомендуется увеличить не менее чем на 10% от рассчитанной численности, поскольку, как было показано в предыдущем параграфе, многоступенчатость отбора увеличивает ошибку выборки.

После проведения выборки рассчитывают возможные ошибки . выборочных показателей (ошибки репрезентативности), которые используются для оценки результатов выборки и для получения характеристик генеральной совокупности.

Пример. На электроламповом заводе взято для проверки 100 ламп. Средняя продолжительность их горения оказалась 1420 ч со средним квадратическим отклонением 61,03 ч. Поскольку приемщика продукции интересует качество всей партии (50 тыс. электроламп), оценивают точность полученной средней. Средняя возможная ошибка вычисленной выборочной средней

ч.

С вероятностью 0,954 предел возможной ошибки

∆_х = 2∙6,1 = ± 12,2 ч.

С вероятностью 0,954 можно утверждать, что средняя продолжительность горения 1 электролампы во всей партии будет находиться в пределах от 1408 до 1432 ч; 46 электроламп из 1000 могут иметь срок горения, выходящий за эти пределы.

Приемщика продукции интересуют отклонения от вычисленных пределов только в сторону сокращения продолжительности горения. Меньше чем 1408 ч могут гореть 23 лампы из 1000. На основании этого приемщик продукции решает вопрос о годности всей партии электроламп.

Решение вопроса может быть уточнено: определим, у какой доли ламп срок службы окажется меньше установленного лимита. Для потребителя продукции таким лимитом являются 1410 ч, продукция с меньшим сроком горения неприемлема.

При контрольной проверке 100 ламп 100 ламп горели менее 1410 ч, их удельный вес р = 0,1, или 10%. Средняя возможная ошибка этой доли

, или ± 3%.

С вероятностью 0,954 предел ошибки доли Д^ = 2 • 0,03 = ± 0,06, или ±6%. Следовательно, во всей партии можно ожидать от 4 до 16% некачественных электроламп.

Чаще всего делают заключение об удовлетворительности выборки, сопоставляя получившиеся пределы ошибок выборочных показателей с величинами допустимых погрешностей. Может получиться, что предел ошибки, рассчитанный с заданной вероятностью, окажется выше допустимого размера погрешности. В этих случаях определяют вероятность того, что ошибка выборки не превзойдет допускаемую погрешность. Решение этой задачи и заключается в отыскании Fft) на основе формулы предела ошибки выборки:

где ∆ — допустимый размер погрешности оцениваемого показателя;

s² — дисперсия показателя, рассчитанная по данным выборочного наблюдения;

п — объем проведенной выборки.

Продолжим пример с оценкой качества электроламп. Если при приемке партии электроламп ставится условие, что минимальный срок горения электроламп 1410 ч, то, учитывая среднюю продолжительность горения по выборке (х= 1420 ч), допустимая погрешность равна 10 ч: 1410 — 1420 = — 10 ч.

Как было установлено выше, с вероятностью 0,954 предел возможной ошибки выборочной средней составил 12,2 ч, что превосходит допустимую погрешность. Является ли это основанием для браковки всей партии? Для ответа на этот вопрос определяют вероятность риска при приемке продукции:

, отсюда t= 1,64.

Соответствующая доверительная вероятность 0,899 (см. приложение, табл. 1). Вероятность того, что средний срок горения лампы меньше 1410 ч, равна:

Следовательно, из 100 ламп 5 могут гореть менее 1410 ч — риск появления некачественной продукции достаточно высок.

Аналогично можно определить вероятность того, что предел ошибки доли не превысит допускаемую погрешность доли.

Оценки надежности выборочных показателей, как показано на примере, позволяют принять обоснованные решения в отношении генеральной совокупности.

7.6. Распространение данных выборочного наблюдения на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности на основе данных, полученных по выборке. При этом исходят из того, что все средние и относительные показатели, полученные по выборке, являются несмещенными и эффективными характеристиками генеральной совокупности.

Выборочные средние и относительные величины распространяются на генеральную совокупность обязательно с учетом предела их возможной ошибки. Приводится выборочный показатель со справкой о пределах ошибки с указанием доверительной вероятности: x̅ ± ∆_x, p ± ∆_p. Или же указывают границы значений генеральной характеристики с определенной вероятностью F(t):

Последняя форма записи является основной.

Иногда требуется указать только один (верхний или нижний) предел характеристики генеральной совокупности. При испытании качества продукции часто нас не интересуют положительные ошибки выборки (качество фактически выше, чем получилось по выборке), беспокоит нижний предел, как в примере, рассмотренном в предыдущем параграфе. В некоторых случаях, напротив, интерес вызывают верхние границы оцениваемых показателей, например при анализе расхода материалов. Так что при характеристике генеральной совокупности всегда указывают неблагоприятный предел.

На основе выборки могут быть получены и значения объемных показателей, т. е. подсчетов для генеральной совокупности. Такой расчет осуществляется двумя способами: путем прямого расчета и способом коэффициентов. Прямой расчет заключается в том, что выборочная средняя или доля умножается на объем генеральной совокупности:

Так как средняя величина имеет ошибку репрезентативности ± А д то можно считать, что итоговый подсчет в генеральной совокупности находится в пределах

(7.24)

Итоговый подсчет по генеральной совокупности можно получить на основе итогового подсчета по выборке, разделив его на долю отбора единиц совокупности

Прежде чем проводить расчет объемных показателей для генеральной совокупности, нужно убедиться, что структура выборки соответствует структуре генеральной совокупности. При наличии значительных смещений в структуре выборки в долях отдельных групп (0,03 и выше) следует применить метод перевзвешивания, г. в. рассчитывать генеральную среднюю на основе выборочных средних по группам и удельного веса этих групп в генеральной совокупности:

где w_i = N_iN.

При способе коэффициентов также используются не только выборочные данные, но и сведения о генеральной совокупности.

Этот способ основан на связи признаков друг с другом. Например, в результате выборочного обследования семей города получены размер среднедушевого дохода (х̅), средний доход семьи (у̅) и среднее число человек в семье (z̅). Так что x̅ = y̅ / z̅.

Зная численность населения города, требуется рассчитать общую величину денежного дохода населения. Очевидно, это можно сделать, умножив душевой доход на общее число жителей в городе: x̅N. Общий доход можно получить, суммируя доход отдельных семей; численность населения можно получить, суммируя данные о числе членов семей. Тогда

Средний душевой расход представляет собой коэффициент, подсчитанный по выборке, который связывает две характеристики. Этот коэффициент рассчитывается как отношение двух итоговых подсчетов по выборке:

Следовательно,

Последний сомножитель не что иное, как обратная величина доли отбора, рассчитанной по значениям признака z.

Итак, итоговый подсчет по генеральной совокупности может быть получен делением соответствующего итогового подсчета по выборке на долю отбора. При прямом расчете берется доля отбора единиц совокупности, при способе коэффициентов — доля отбора по значению какого-либо признака.

Эффективность способа коэффициентов по сравнению с методом прямого расчета зависит от того, насколько тесно связаны между собой признаки, лежащие в основе расчета коэффициента, т.е. признак, по которому подсчитывается итог, и признак, по которому определяется доля отбора. Эффект проявляется, если коэффициент корреляции между ними больше 0,8.

Способ коэффициентов используется для корректировки данных сплошного наблюдения. Например, перепись скота дала сведения, что поголовье свиней в районе составляет 10 000, в том числе в тех хозяйствах, которые потом были охвачены контрольным обходом, сплошное наблюдение показало число свиней 1100. Контрольный обход дал уточненную цифру: не 1100, а 1107 свиней. Тогда поправочный коэффициент

Отсюда скорректированная численность поголовья свиней во всем районе

N =N¢+∆N; ∆N = kN¢ = ∙10 000 = 64.

N = 10 000 + 64 = 10 064 голов.

Таблицы интеграла вероятностей используются для выборок большого объема из бесконечно большой генеральной совокупности. Но уже при п < \ 00 получается несоответствие между табличными данными и вероятностью предела; при п < 100 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в генеральной совокупности не имеет значения, так как распределение отклонений выборочного показателя от генеральной характеристики при большой выборке всегда оказывается нормальным.

В выборках небольшого объема п £ 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из совокупности, имеющей нормальное распределение.

Теория малых выборок разработана английским статистиком В. Госсетом (писавшим под псевдонимом Стьюдент) в начале XX в. В 1908 г. им построено специальное распределение, которое позволяет и при малых выборках соотносить t и доверительную вероятность F(t). При п > 100 таблицы распределения Стьюдента дают те же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 £ п £ 100 различия незначительны. Поэтому практически к малым выборкам относят выборки объемом менее 30 единиц (безусловно, большой считается выборка с объемом более 100 единиц).

Использование малых выборок в ряде случаев обусловлено характером обследуемой совокупности. Так, в селекционной работе «чистого» опыта легче добиться на небольшом числе делянок. Производственный и экономический эксперимент, связанный с экономическими затратами, также проводится на небольшом числе испытаний.

Как уже отмечалось, в случае малой выборки только для нормально распределенной генеральной совокупности могут быть рассчитаны и доверительные вероятности, и доверительные пределы генеральной средней.

Плотность вероятностей распределения Стьюдента описывается функцией

, (7.25)

где t — текущая переменная;

п — объем выборки;

В — величина, зависящая лишь от п.

Распределение Стьюдента имеет только один параметр: d.f. —число степеней свободы (иногда обозначается k).

Это распределение, как и нормальное, симметрично относительно точки t = 0, но оно более пологое. При увеличении объема выборки, а следовательно, и числа степеней свободы распределение Стьюдента быстро приближается к нормальному. Число степеней свободы равно числу тех индивидуальных значений признаков, которыми нужно располагать для определения искомой характеристики.

Так, для расчета дисперсии должна быть известна средняя величина. Поэтому при расчете дисперсии d.f. = п — 1

Таблицы распределения Стьюдента публикуются в двух вариантах:

1) аналогично таблицам интеграла вероятностей приводятся значения t и соответствующие вероятности F(t) при разном числе степеней свободы;

2) значения t приводятся для наиболее употребимых доверительных вероятностей 0,90; 0,95 и 0,99 или для 1 — 0,9 = 0,1, 1 — 0,95 = = 0,05 и 1 — 0,99 == 0,01 при разном числе степеней свободы. Такого рода таблица приведена в приложении (табл. 2), а также значение t-критерия Стьюдента при уровне значимости 0,10; 0,05; 0,01.

При малых выборках расчет средней возможной ошибки основан на выборочных дисперсиях, поэтому

Приведенная формула используется для определения предела возможной ошибки выборочного показателя:

Порядок расчетов тот же, что и при больших выборках.

Пример. Для изучения интенсивности труда было организовано наблюдение за 10 отобранными рабочими. Доля работавших все время оказалась равной 0,40, дисперсия 0,4∙0,6 = 0,24. По табл. 2 приложения находим для F(t) = 0,95 и d.f. = n — 1 = 9, t = 2,26. Рассчитаем среднюю ошибку выборки доли работавших все время:

Тогда предельная ошибка выборки ∆_p = 2,26∙0,16 = ± 0,36. Таким образом, с вероятностью 0,95 доля рабочих, работавших без простоев, в данном цехе предприятия находится в пределах

39,64% £ π £ 40,36%

или

39,6% £ π £ 40,4%.

Если бы мы использовали для расчета доверительных границ генерального параметра таблицу интеграла вероятностей, то t было бы равно 1,96 и ∆_p — ± 0,31, т. е. доверительный интервал был бы несколько уже.

Малые выборки широко используются для решения задач, связанных с испытанием статистических гипотез, особенно гипотез о средних величинах.

Источник

Содержание курса лекций “Статистика”

Выборочное наблюдение как источник статистической информации в изучении социально-экономических явлений и процессов

Статистическая методология исследования массовых явлений различает, как известно, два способа наблюдения в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное, которое в условиях рыночных отношений в России находит все более широкое применение. Переход статистики РФ на международные стандарты системы национального счетоводства требует более широкого применения выборки для получения и анализа показателей СНС не только в промышленности, но и в других секторах экономики.

Под выборочным наблюдением понимается несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным способом. Выборочное наблюдение ставит перед собой задачу ‑ по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц.

К выборочному наблюдению статистика прибегает по различным причинам. На современном этапе появилось множество субъектов хозяйственной деятельности, которые характерны для рыночной экономики. Речь идет об акционерных обществах, малых и совместных предприятиях, фермерских хозяйствах и т.д. Сплошное обследование этих статистических совокупностей, состоящих из десятков и сотен тысяч единиц, потребовало бы огромных материальных, финансовых и иных затрат. Использование же выборочного обследования позволяет значительно сэкономить силы и средства, что имеет немаловажное значение.

Наряду с экономией ресурсов одной из причин превращения выборочного наблюдения в важнейший источник статистической информации является возможность значительно ускорить получение необходимых данных. Ведь при обследовании, скажем, 10% единиц совокупности будет затрачено гораздо меньше времени, а результаты могут быть представлены быстрее, и будут более актуальными. Фактор времени важен для статистического исследования особенно в условиях изменяющейся социально-экономической ситуации.

Реализация выборочного метода базируется на понятиях генеральной и выборочной совокупностей.

Генеральной совокупностью называется вся исходная изучаемая статистическая совокупность, из которой на основе отбора единиц или групп единиц формируется совокупность выборочная. Поэтому генеральную совокупность также называют основой выборки.

Отбор единиц в выборочную совокупность может быть повторным или бесповторным.

При повторном отборе попавшая в выборку единица подвергается обследованию, т.е. регистрации значений ее признаков, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора. Таким образом, некоторые единицы могут попадать в выборку дважды, трижды или даже большее число раз. И при изучении выборочной совокупности они будут рассматриваться как отдельные независимые наблюдения.

Отметим, что число единиц генеральной совокупности, участвующих в отборе, при таком подходе остается постоянным. Поэтому вероятность попадания в выборку для всех единиц совокупности на протяжении всего процесса отбора также не меняется.

На практике методология повторного отбора обычно используется в тех случаях, когда объем генеральной совокупности не известен и теоретически возможно повторение единиц с уже встречавшимися значениями всех регистрируемых признаков.

Например, при проведении маркетинговых исследований мы не можем сколько-нибудь точно оценить, какое число потребителей предпочитают стиральный порошок конкретной торговой марки, сколько покупателей предпочитают делать покупки именно в данном супермаркете и т.д. Поэтому возможно повторение совершенно идентичных единиц как по причине практически неограниченных объемов совокупности, так и вследствие возможной повторной регистрации. Предположим, при проведении обследования один и тот же покупатель может дважды прийти в магазин и дважды подвергнуться обследованию.

При выборочном контроле качества продукции объем генеральной совокупности также часто не определен, так как процесс производства может осуществляться постоянно, каждый день дополняя генеральную совокупность новыми единицами-изделиями. Поэтому в выборочную совокупность могут попасть два и более изделий с абсолютно одинаковыми характеристиками. Следовательно, и в этом случае при обработке результатов выборки необходимо ориентироваться на методологию, используемую при повторном отборе.

При бесповоротном отборе попавшая в выборку единица подвергается обследованию и в дальнейшей процедуре отбора не участвует. Такой отбор целесообразен и практически возможен в тех случаях, когда объем генеральной совокупности четко определен. Получаемые при этом результаты, как правило, являются более точными по сравнению с результатами, основанными на повторной выборке.

Как уже отмечалось выше, выборочное наблюдение всегда связано с определенными ошибками получаемых характеристик. Эти ошибки называются ошибками репрезентативности (представительности).

Ошибки репрезентативности обусловлены тем обстоятельством, что выборочная совокупность не может по всем параметрам в точности воспроизвести совокупность генеральную. Получаемые расхождения или ошибки репрезентативности позволяют заключить, в какой степени попавшие в выборку единицы могут представлять всю генеральную совокупность. При этом следует различать систематические и случайные ошибки репрезентативности.

Систематические ошибки репрезентативности связаны с нарушением принципов формирования выборочной совокупности. Например, вследствие каких-либо причин, связанных с организацией отбора, в выборку попали единицы, характеризующиеся несколько большими или, наоборот, несколько меньшими по сравнению с другими единицами значениями наблюдаемых признаков. В этом случае и рассчитанные выборочные характеристики будут завышенными или заниженными.

Случайные ошибки репрезентативности обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные характеристики. Но даже при строгом соблюдении всех принципов формирования выборочной совокупности выборочные и генеральные характеристики будут несколько различаться. Получаемые случайные ошибки могут быть статистически оценены и учтены при распространении результатов выборочного наблюдения на всю генеральную совокупность. Оценка ошибок выборочного наблюдения основана на теоремах теории вероятностей.

При дальнейшем рассмотрении теории и методов выборочного наблюдения используются следующие общепринятые условные обозначения:

N ‑ объем (число единиц) генеральной совокупности;

n ‑ объем (число единиц) выборочной совокупности;

‑ генеральная средняя, т.е. среднее значение изучаемого признака по генеральной совокупности (средняя прибыль, средняя величина активов, средняя численность работников предприятия и т.п.);

‑ выборочная средняя,
т.е. среднее значение изучаемого признака по выборочной совокупности;

М ‑ численность единиц генеральной совокупности, обладающих определенным вариантом или вариантами изучаемого признака (численность городского населения, численность сельского населения, количество бракованных изделий, число нерентабельных предприятий и т.п.);

р ‑ генеральная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, во всей генеральной совокупности (доля городского населения в общей численности населения, доля бракованной продукции в общем выпуске, доля нерентабельных предприятий в общей численности предприятий и т.п.); определяетcя как

m ‑ численность единиц выборочной совокупности, обладающих определенным вариантом или вариантами изучаемого признака;

w ‑ выборочная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, в выборочной совокупности,

определяется как ;

‑ средняя ошибка выборки;

‑ предельная ошибка выборки;

‑ коэффициент доверия, определяемый в зависимости от уровня вероятности.

Ошибка выборки или отклонение выборочной средней от средней генеральной находится в прямой зависимости от дисперсии изучаемого признака в генеральной совокупности, и в обратной зависимости ‑ от объема выборки.

Таким образом среднюю ошибку выборки можно представить как

(10.1)

При проведении выборочного наблюдения дисперсия изучаемого признака в генеральной совокупности, как правило, не известна. В то же время, между генеральной дисперсией и средней из всех возможных выборочных дисперсий существует следующее соотношение:

(10.2)

В связи с тем, что на практике в большинстве случаев из генеральной совокупности в определенный момент времени производится только одна выборка, дисперсия изучаемого признака по этой выборке и используется при расчете ошибки.

Учитывая, что при достаточно большом объеме выборки отношение близко к 1, формула средней ошибки повторной выборки принимает следующий вид:

(10.3)

Где ‑ дисперсия изучаемого признака по выборочной совокупности.

При определении возможных границ значений характеристик генеральной совокупности рассчитывается предельная ошибка выборки, которая зависит от величины ее средней ошибки и уровня вероятности, с которым гарантируется, что генеральная средняя не выйдет за указанные границы.

Согласно теореме А.М. Ляпунова, вероятность той или иной величины предельной ошибки, при достаточно большом объеме выборочной совокупности, подчиняется нормальному закону распределения и может быть определена на основе интеграла Лапласа.

Значения интеграла Лапласа при различных величинах t табулированы и представлены в статистических справочниках.

При обобщении результатов выборочного наблюдения наиболее часто используются следующие уровни вероятности и соответствующие им значения t:

Таблица 10.1 ‑ !!!Некоторые значения t

Вероятность, р_i.	0,683	0,866	0,954	0,988	0,997	0,999
Значение t	1,0	1,5	2,0	2,5	3,0	3,5

Например, если при расчете предельной ошибки выборки мы используем значение t=2, то с вероятностью 0,954 можно утверждать, что расхождение между выборочной средней и генеральной средней не превысит двукратной величины средней ошибки выборки.

Теоретической основой для определения границ генеральной доли, т.е. доли единиц, обладающих тем или иным вариантом признака, является теорема Вернули. Согласно данной теореме вероятность получения сколь угодно малого расхождения между выборочной долей и генеральной долей при достаточно большом объеме выборки будет стремиться к единице. С учетом того, что вероятность расхождения между выборочной и генеральной долями подчиняется нормальному закону распределения, эта вероятность также определяется по функции F(t) при заданном значении t.

Процесс подготовки и проведения выборочного наблюдения включает ряд последовательных этапов:

Определение цели обследования.
Установление границ генеральной совокупности.
Составление программы наблюдения и программы разработки данных
Определение вида выборки, процента отбора и метода отбора
Отбор и регистрация наблюдаемых признаков у отобранных единиц.
Насчет выборочных характеристик и их ошибок.
Распространение полученных результатов на генеральную совокупность.

В зависимости от состава и структуры генеральной совокупности выбирается вид выборки или способ отбора.

К наиболее распространенным на практике видам относятся:

собственно-случайная (простая случайная) выборка;
механическая (систематическая) выборка;
типическая (стратифицированная, расслоенная) выборка;
серийная (гнездовая) выборка.

Отбор единиц из генеральной совокупности может быть комбинированным, многоступенчатым и многофазным.

Комбинированный отбор предполагает объединение нескольких видов выборки. Так, например, можно комбинировать типическую и серийную, серийную и собственно-случайную выборки. Ошибка такой выборки определяется ступенчатостью отбора.

Многоступенчатым называется отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, потом ‑ более мелкие и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.

Многофазная выборка, в отличие от многоступенчатой, предполагает сохранение одной и той же единицы отбора на всех этапах его проведения; при этом отобранные на каждой стадии единицы подвергаются обследованию, каждый раз – по более расширенной программе.

Собственно-случайная (простая случайная) выборка заключается в отборе единиц из генеральной совокупности наугад или наудачу без каких-либо элементов системности.

Однако прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования отдельных единиц и т.п. Следует также установить четкие границы генеральной совокупности таким образом, чтобы включение или не включение в нее отдельных единиц не вызывало сомнений. Так, например, при обследовании студентов необходимо указать, будут ли приниматься во внимание лица, находящиеся в академическом отпуске, студенты негосударственных вузов, военных училищ и т.п.; при обследовании торговых предприятий важно определиться, включит ли генеральная совокупность торговые павильоны, коммерческие палатки и прочие подобные объекты.

Технически собственно-случайный отбор проводят методом жеребьевки или по таблице случайных чисел.

Расчет ошибок позволяет решить одну из главных проблем организации выборочного наблюдения – оценить репрезентативность (представительность) выборочной совокупности.

Различают среднюю и предельную ошибки выборки. Эти два вида связаны следующим соотношением:

(10.4)

Величина средней ошибки выборки рассчитывается дифференцированно в зависимости от способа отбора и процедуры выборки.

Так, при собственно-случайном повторном отборе средняя ошибка определяется по формуле:

(10.5)

а при расчете средней ошибки собственно-случайной бесповторной выборки:

(10.6)

Расчет средней и предельной ошибок выборки позволяет определить возможные пределы, в которых будут находиться характеристики генеральной совокупности.

Например, для выборочной средней такие пределы устанавливаются на основе следующих соотношений:

(10.7)

где и ‑ генеральная и выборочная средняя соответственно;

‑ предельная ошибка выборочной средней.

Пример.

При проверке веса импортируемого груза на таможне методом случайной повторной выборки было отобрано 200 изделий. В результате был установлен средний вес изделия 30 г. при среднем квадратическом отклонении 4 г. С вероятностью 0,997 определите пределы, в которых находится средний вес изделия в генеральной совокупности.

Решение. Рассчитаем сначала предельную ошибку выборки. Так как при р = 0,997, t = 3, она равна:

Определим пределы генеральной средней:

или

Вывод: Следовательно, с вероятностью 0,997 можно утверждать, что средний вес изделий в генеральной совокупности находится в пределах от 29,16 г. до 30,84 г.

Пример 2.

В городе проживает 250 тыс. семей. Для определения среднего числа детей в семье была организована 2%-ная случайная бесповторная выборка семей. По ее результатам было получено следующее распределение семей по числу детей:

Таблица 10.2 ‑ Распределение семей по числу детей в городе N

Число детей в семье

Количество

семей

1000

2000

1200

400

200

С вероятностью 0,954 определите пределы, в которых будет находиться среднее число детей в генеральной совокупности.

Решение. В начале на основе имеющегося распределения семей определим выборочные среднюю и дисперсию:

Таблица 10.3 ‑ Вспомогательная таблица для расчета среднего числа детей

Число детей

в семье, х;

Количество семей, f

1000

2000

1200

400

200

2000

2400

1200

800

1000

-1,5

-0,5

0,5

1,5

2,5

3,5

2,25

0,25

2,25

6,25

12,25

2250

500

300

900

1250

2450

Итого

5000

7400

–

7650

Вычислим теперь предельную ошибку выборки (с учетом того, что при р = 0,954 t = 2).

Следовательно, пределы генеральной средней:

Таким образом, с вероятностью 0,954 можно утверждать, что среднее число детей в семьях города практически не отличается от 1,5, т.е. в среднем на каждые две семьи приходится три ребенка.

Наряду с определением ошибок выборки и пределов для генеральной средней эти же показатели могут быть определены для доли признака.

В этом случае особенности расчета связаны с определением дисперсии доли, которая вычисляется так:

(10.8)

где ‑ доля единиц, обладающих данным признаком в выборочной совокупности, определяемая как отношение количества соответствующих единиц к объему выборки.

Тогда, например, при собственно-случайном повторном отборе для определения предельной ошибки выборки используется следующая формула:

(10.9)

Соответственно, при бесповторном отборе:

(10.10)

Пределы доли признака в генеральной совокупности p выглядят следующим образом:

(10.11)

Рассмотрим пример.

С целью определения средней фактической продолжительности рабочего дня в государственном учреждении с численностью служащих 480 человек, в январе 2009 г. было проведена 25%-ная случайная бесповторная выборка. По результатам наблюдения оказалось, что у 10% обследованных потери времени достигали более 45 мин. в день. С вероятностью 0,683 установите пределы, в которых находится генеральная доля служащих с потерями рабочего времени более 45 мин. в день.

Решение. Определим объем выборочной совокупности:

n= 480 х 0,25 = 120 чел.

Выборочная доля w равна по условию 10%.

Учитывая, что при р = 0,683 t=1, вычислим предельную ошибку выборочной доли:

Пределы доли признака в генеральной совокупности:

Таким образом, с вероятностью 0,683 можно утверждать, что доля работников учреждения с потерями рабочего времени более 45 мин. в день находится в пределах от 7,6% до 12,4%.

Мы рассмотрели определение границ генеральной средней и генеральной доли по результатам уже проведенного выборочного наблюдения, при известном объеме выборки или проценте отбора. На этапе же проектирования выборочного наблюдения именно объем выборочной совокупности и требует определения.

Для определения необходимого объема собственно-случайной повторной выборки применяют следующую формулу:

(10.12)

Полученный на основе использования данной формулы результат всегда округляется в большую сторону. Например, если мы получили, что необходимый объем выборки составляет 493,1 единицы, то обследовав 493 единицы мы не достигнем требуемой точности. Поэтому, для достижения желаемого результата обследованием должны быть охвачены 494 единицы.

С другой стороны, рассчитанное значение необходимого объема выборки свободно может быть увеличено в большую сторону на несколько единиц. Если мы располагаем необходимыми ресурсами, если по причинам организационного порядка (компактность расположения единиц, фиксированная нагрузка на каждого регистратора и т.п.) мы вполне можем охватить больший объем, то включение в выборочную совокупность 500 или, например, 550 единиц только уменьшит значения полученных случайной и предельной ошибок.

При определении необходимого объема выборки для определения границ генеральной доли задача оценки вариации решается значительно проще. Если дисперсия изучаемого альтернативного признака неизвестна, то можно использовать ее максимальное возможное значение:

Например, предприятию связи с вероятностью 0,954 необходимо определить удельный вес телефонный разговоров продолжительностью менее 1 минуты с предельной ошибкой 2%. Сколько разговоров нужно обследовать в порядке собственно-случайного повторного отбора для решения этой задачи?

Для получения ответа на поставленный вопрос воспользуемся формулой (10.12) и будем ориентироваться на максимальную возможную дисперсию доли телефонных разговоров такой продолжительности. Расчет приводит к следующему результату:

Таким образом, обследованием должны быть охвачены не менее 2500 разговоров на предмет их продолжительности.

Необходимый объем собственно-случайной бесповторной выборки может быть определен по следующей формуле:

(10.13)

Укажем на одну особенность формулы (10.13). При проведении вычислений объем генеральной совокупности должен быть выражен только в единицах, а не в тысячах или в миллионах единиц.

Например, подставив в данную формулу общую численность населения региона, выраженную в тысячах человек, мы не получим правильное значение необходимой численности выборки, также выраженное в тысячах человек, как это иногда бывает в других расчетах. Результат вычислений будет неверен.

Механическая выборка может быть применена в тех случаях, когда генеральная совокупность каким-либо образом упорядочена, т.е. имеется определенная последовательность в расположении единиц (табельные номера работников, списки избирателей, телефонные номера респондентов, номера домов и квартир и т.п.). Для проведения отбора желательно, чтобы все единицы также имели порядковые номера от 1 до N.

Для проведения механической выборки устанавливается пропорция отбора, которая определяется соотнесением объемов выборочной и генеральной совокупностей.

Так, если из совокупности в 500000 единиц предполагается отобрать 10000 единиц, то пропорция отбора составит

Отбор единиц осуществляется в соответствии с установленной пропорцией через равные интервалы.

Например, при пропорции 1:50 (2%-ная выборка) отбирается каждая 50-я единица, при пропорции 1:20 (5%-ная выборка) – каждая 20-я единица и т.д.

Интервал отбора также можно определить как частное от деления 100% на установленный процент отбора.

Так, например при 2%-ном отборе интервал составит 50 (100%:2%), при 4%-ном отборе ‑ 25 (100%:4%). В тех случаях, когда результат деления получается дробным, сформировать выборку механическим способом при строгом соблюдении процента отбора не представляется возможным.

Например, по этой причине нельзя сформировать 3%-ную или 6%-ную выборки.

Генеральную совокупность при механическом отборе можно ранжировать или упорядочить по величине изучаемого или коррелирующего с ним признака, что позволит повысить репрезентативность выборки. Однако в этом случае возрастает опасность систематической ошибки, связанной с занижением значений изучаемого признака (если из каждого интервала регистрируется первое значение) или его завышением (если из каждого интервала регистрируется последнее значение). Поэтому целесообразно из каждого интервала отбирать центральную или одну из двух центральных единиц.

Например, при 5%-ной выборке интервал отбора составит 20 единиц, тогда отбор целесообразно начинать с 10-й или с 11-й единицы. В первом случае в выборку попадут 10, 30, 50, 70 и с таким же интервалом последующие единицы; во втором случае – единицы с номерами 11,31,51,71 и т.д.

При механической выборке также может появиться опасность систематической ошибки, обусловленной случайным совпадением выбранного интервала и циклических закономерностей в расположении единиц генеральной совокупности. Так, при переписи населения 1989 г. в ходе 25%-го выборочного обследования семей имела место опасность попадания в выборку квартир только одного типа (например, только однокомнатных или только трехкомнатных), так как на лестничных площадках многих типовых домов располагаются именно по 4 квартиры. Чтобы избежать систематической ошибки, в каждом новом подъезде счетчик менял начало отбора.

Для определения средней ошибки механической выборки, а также необходимой ее численности, используются соответствующие формулы, применяемые при собственно-случайном бесповторном отборе(10.6 и 10.13). При этом, определив необходимую численность выборки и сопоставив ее с объемом генеральной совокупности, как правило, приходится производить соответствующее округление для получения целочисленного интервала отбора.

Например, в области зарегистрировано 12000 фермерских хозяйств. Определим, сколько из них нужно отобрать в порядке механического отбора для определения средней площади сельхозугодий с ошибкой ± 2 га. (Р=0,997). По результатам ранее проведенного обследования известно, что среднее квадратическое отклонение площади сельхозугодий составляет 8 га. Произведем расчет, воспользовавшись формулой (10.13).

С учетом полученного необходимого объема выборки (143 фермерских хозяйства) определим интервал отбора: 12000:143=83,9.

Определенный таким способом интервал всегда округляется в меньшую сторону, так как при округлении в большую сторону произведенная выборка не достигнет рассчитанного по формуле необходимого объема.

Следовательно, в нашем примере, из общего списка фермерских хозяйств необходимо отобрать для обследования каждое 83-е хозяйство. При этом процент отбора составит 1,2% (100% : 83).

Типический отбор целесообразно использовать в тех случаях, когда все единицы генеральной совокупности объединены в несколько крупных типических групп.. Такие группы также называют стартами или слоями, в связи с чем типический отбор также называют стратифицированным или расслоенным. При обследованиях населения в качестве типических групп могут быть выбраны области, районы, социальные, возрастные или образовательные группы, при обследовании предприятий – отрасли или подотрасли, формы собственности и т.п.

Рассматривать генеральную совокупность в разрезе нескольких крупных групп единиц имеет смысл только в том случае, если средние значения изучаемых признаков по группам существенно различаются. Например, с большой уверенностью можно предположить, что доходы населения крупного города будут в среднем выше доходов населения, проживающего в сельской местности; численность работников промышленного предприятия в среднем будет выше численности работников торгового или сельскохозяйственного предприятия; средний возраст студентов будет значительно меньше среднего возраста занятого населения и, тем более, пенсионеров. В то же время, нет никакого смысла при выделении типических групп ориентироваться на признак, не связанный или очень слабо связанный с изучаемым.

Отбор единиц в выборочную совокупность из каждой типической группы осуществляется собственно-случайным или механическим способом. Поскольку в выборочную совокупность в той или иной пропорции обязательно попадают представители всех групп, типизация генеральной совокупности позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. В то же время, в выделенных типических группах обследуются далеко не все единицы, а только включенные в выборку. Следовательно, на величине полученной ошибки будет сказываться различие между единицами внутри этих групп, т.е. внутригрупповая вариация. Поэтому, ошибка типической выборки будет определяться величиной не общей дисперсии, а только ее части – средней из внутригрупповых дисперсий.

При типической выборке, пропорциональной объему типических групп, число единиц, подлежащих отбору из каждой группы, определяется следующим образом:

(10.14)

Где N_i – объем i-ой группы. а n_i ‑ объем выборки из i-ой группы.

Пример. Предположим, общая численность населения области составляет 1,5 млн. чел., в том числе городское – 900 тыс. чел. и сельское – 600 тыс. чел. Если в ходе выборочного наблюдения планируется обследовать 100 тыс. жителей, то эта численность должна быть поделена пропорционально объему типических групп следующим образом:

Средняя ошибка типической выборки определяется по формулам:

(10.15)

(10.16)

где – средняя из внутригрупповых дисперсий.

При выборке, пропорциональной дифференциации признака, число наблюдений по каждой группе рассчитывается по формуле:

(10.17)

Где ‑ среднее отклонение признака в i-ой группе.

Cредняя ошибка такого отбора определяется следующим образом:

(10.18)

(10.19)

Отбор, пропорциональный дифференциации признака, дает лучшие результаты, однако на практике его применение затруднено вследствие трудности получения сведений о вариации до проведения выборочного наблюдения.

Таблица 10.4 ‑ Результаты обследования рабочих предприятия

Цех

Всего рабочих, человек

Обследовано, человек

Число дней временной нетрудоспособности за год

средняя

дисперсия

III

1000

1400

800

100

140

Рассмотрим оба варианта типической выборки на условном примере. Предположим, 10% бесповторный типический отбор рабочих предприятия, пропорциональный размерам цехов, проведенный с целью оценки потерь из-за временной нетрудоспособности, привел к следующим результатам (табл. 10.4)

Рассчитаем среднюю из внутригрупповых дисперсий:

Определим среднюю и предельную ошибки выборки (с вероятностью 0,954):

Рассчитаем выборочную среднюю:

С вероятностью 0,954 можно сделать вывод, что среднее число дней временной нетрудоспособности одного рабочего в целом по предприятию находится в пределах:

Воспользуемся полученными внутригрупповыми дисперсиями для проведения отбора пропорционального дифференциации признака. Определим необходимый объем выборки по каждому цеху:

С учетом полученных значений рассчитаем среднюю ошибку выборки:

В данном случае средняя, а следовательно, и предельная ошибки будут несколько меньше, что отразится и на границах генеральной средней.

Серийный отбор. Данный способ отбора удобен в тех случаях, когда единицы совокупности объединены в небольшие группы или серии. В качестве таких серий могут рассматриваться упаковки с определенным количеством готовой продукции, партии товара, студенческие группы, бригады и другие объединения. Сущность серийной выборки заключается в собственно-случайном или механическом отборе серий, внутри которых производится сплошное обследование единиц.

Поскольку внутри групп (серий) обследуются все без исключения единицы, средняя ошибка серийной выборки (при отборе равновеликих серий) зависит от величины только межгрупповой (межсерийной) дисперсии и определяется по следующим формулам:

(10.20)

(10.21)

Где r ‑ число отобранных серий; R ‑ общее число серий.

Межгрупповую дисперсию вычисляют следующим образом:

(10.22)

где ‑ средняя i-й серии;

‑ общая средняя по всей выборочной совокупности.

Пример.

В области, состоящей из 20 районов, проводилось выборочное обследование урожайности на основе отбора серий (районов). Выборочные средние по районам составили соответственно 14,5 ц/га; 16 ц/га; 15,5 ц/га; 15 ц/га и 14 ц/га. С вероятностью 0,954 определите пределы урожайности во всей области.

Решение. Рассчитаем общую среднюю:

Межгрупповая (межсерийная) дисперсия равна:

Определим теперь предельную ошибку серийной бесповторной выборки (t = 2 при р = 0,954):

Вывод: Следовательно, урожайность будет с вероятностью 0,954 находиться в пределах:

Определение необходимого объема выборки

При проектировании выборочного наблюдения возникает вопрос о необходимой численности выборки. Эта численность может быть определена на базе допустимой ошибки при выборочном наблюдении, исходя из вероятности, на основе которой можно гарантировать величину устанавливаемой ошибки, и, наконец, на базе способа отбора.

Формулы необходимого объема выборки для различных способов формирования выборочной совокупности могут быть выведены из соответствующих соотношений, используемых при расчете предельных ошибок выборки. Приведем наиболее часто применяемые на практике выражения необходимого объема выборки:

– собственно-случайная и механическая выборка:

(10.23)

(10.24)

– типическая выборка:

(10.25)

(10.26)

– серийная выборка:

(10.27)

(10.28)

При этом в зависимости от целей исследования дисперсии и ошибки выборки могут быть рассчитаны для средней величины или доли признака.

Рассмотрим примеры определения необходимого объема выборки при различных способах формирования выборочной совокупности.

Пример.

В 100 туристических агентствах города предполагается провести обследование среднемесячного количества реализованных путевок методом механического отбора. Какова должна быть численность выборки, чтобы с вероятностью 0,683 ошибка не превышала 3 путевок, если по данным пробного обследования дисперсия составляет 225.

Решение. Рассчитаем необходимый объем выборки:

Пример.

С целью определения доли сотрудников коммерческих банков области в возрасте старше 40 лет предполагается организовать типическую выборку пропорциональную численности сотрудников мужского и женского пола с механическим отбором внутри групп. Общее число сотрудников банков составляет 12 тыс. чел., в том числе 7 тыс. мужчин и 5 тыс. женщин.

На основании предыдущих обследований известно, что средняя из внутригрупповых дисперсий составляет 1600. Определите необходимый объем выборки при вероятности 0,997 и ошибке 5%.

Решение. Рассчитаем общую численность типической выборки:

Вычислим теперь объем отдельных типических групп:

Вывод: Таким образом, необходимый объем выборочной совокупности сотрудников банков составляет 550 чел., в т.ч. 319 мужчин и 231 женщина.

Пример.

В акционерном обществе 200 бригад рабочих. Планируется проведение выборочного обследования с целью определения удельного веса рабочих, имеющих профессиональные заболевания. Известно, что межсерийная дисперсия доли равна 225. С вероятностью 0,954 рассчитайте необходимое количество бригад для обследования рабочих, если ошибка выборки не должна превышать 5%.

Решение. Необходимое количество бригад рассчитаем на основе формулы объема серийной бесповторной выборки:

Содержание курса лекций “Статистика”

Контрольные задания

Самостоятельно проведите выборочное наблюдение и произведите соответствующие расчеты.

Источник

Средняя и предельная ошибки выборки

Формулы численности случайной выборки при определении доли изучаемого признака

Малая выборка

Повторный и бесповторный отбор. Ошибка выборки

Собственно-случайная выборка

Типическая (районированная) выборка

Серийная выборка

Определение численности выборочной совокупности

Задача 1

Задача 2

Задача 3

11.2. Оценка результатов выборочного наблюдения

11.2.1. Средняя и предельная ошибки выборки. Построение доверительных границ для средней и доли

11.2.2. Определение численности выборочной совокупности

7.4. Влияние вида выборки на величину ошибки выборки

7.5. Задачи, решаемые при применении выборочного метода

7.6. Распространение данных выборочного наблюдения на генеральную совокупность

Определение необходимого объема выборки

Интересное по теме:

Повторный и бесповторный отбор.
Ошибка выборки