Конкретная ошибка выборки это

Конкретная ошибка выборки, распределение конкретных ошибок выборки

Ошибка
выборочного наблюдения – представляет
собой разность между величиной параметра
в генеральной совокупности и его
величиной, вычисленной по результатам
выборочного наблюдения.
Конкретная
ошибка – это ошибка проведенной выборки.
Если
из генеральной совокупности повторить
выборку многократно, то каждый раз
будем получать новую величину конкретной
ошибки. Некоторые из этих новых величин
конкретных ошибок будут совпадать друг
с другом по величине и по знаку, т.е.
имеет место распределение ошибок; часть
из этих новых величин будет равно 0,т.е.
наблюдается совпадение оценки и
параметра генеральной совокупности.

Средняя ошибка выборки для выборочной средней и выборочной доли

Средняя
ошибка
– это средняя квадратическая из всех
возможных конкретных ошибок оценки.

Средняя
ошибка показывает насколько в среднем
мы можем ошибиться, если на основе
оценки сделаем выводы о параметре
генеральной совокупности.
Расчет средней
ошибки повторной простой случайной
выборки производится следующим
образом:

cредняя
ошибка для средней
cредняя
ошибка для доли

41
– 50 отсутствуют

Условие: Если значение ошибки (чаще
всего предельной) заранее задано.

Вопрос: Какова должна быть min
численность выборки, чтобы ошибка с
принятым доверительным уровнем
вероятности не выходила за заданные
границы.

Алгоритм решения данной задачи вытекает
из формулы расчета предельной ошибки

Из этого равенства вытекает

Необходимая численность выборки
определяется округленно в большую
сторону до целых единиц.

Возникает проблема с

(дисперсия),
так как выборка не проводилась, а величина
ее дисперсии уже известна. Поэтому, если
исследованная ген. Совокупность
подвергалась ранее выборочному
наблюдению, то можно воспользоваться
значением дисперсии по данным предыдущей
выборки, если выборочного наблюдения
не было, то можно провести экспресс
выборку.

Интервалы предельной ошибки задаются
в % от оценки (выборочной средней). Формула
для расчета min численности
выборки

,

-квадрат
выборочного коэф. вар-ии,

— квадрат ошибки в %

Условие: При установленных границах
ошибки имеет место ограничение в
численности выборки.

Вопрос: Какова гарантия (вероятность),
что при заданной численности выборки
ошибка не выйдет за установленные
границы.

Если вероятность окажется 0,90 и более –
эта выборка с высокой степенью надежности
гарантирует, что ошибка не превысит
установленную величину

Если вер-ть ниже 0,90, то следует либо
примириться с большей ошибкой, либо
найти возможность увеличения численности
выборки.

Коэф t связан с уровнем
вероятности. Исходя из

Получаем

Находим искомый уровень вероятности
по табл. «Значение интеграла нормального
распределения вероятностей» или
«Критические точки t
распределения Стьюдента»

При случайном отборе каждой единице
ген.совокупности присваивается метка
, которая не должна быть связана с
изучаемым признаком. Далее используются
различные приемы, обеспечивающие
случайность отбора (таблица случайных
чисел, лототрон), осуществляющие отбор
меток, как заменителей единиц.

Случайный отбор делится на: повторный
и бесповторный.

Повторный отбор – единицы ген.совокупности,
после фиксации значения признака,
возвращаются обратно в генеральную
совокупность. Поэтому численность
ген.совокупности остается постоянной,
и вероятность попадания каждой единицы
в выборку не изменяется. Из этого способа
формирования выборочной совокупности
исходя алгоритмы расчета средней и
предельной ошибок.

Бесповторный отбор – единицы, попавшие
в выборку в ген.совокупность не
возвращаются. Численность ген.совокупности
уменьшается, вероятность попадания
единиц в выборку возрастает

При этом отборе делается поправка на
конечность ген.совокупности для расчета
средней и предельной ошибок

При больших значениях N,
единицей в знаменателе можно пренебречь

Следовательно, алгоритмы (средняя,
предельная) будут такими:

<
1, средняя и предельная ошибки всегда
меньше, чем при повторном отборе.

С введением
,
меняются формулы для расчета других
ошибок (не всех)

Механический отбор используется в том
случае, если единицы генеральной
совокупности располагаются в каком-либо
порядке во времени или пространстве,
или есть возможность это сделать. Порядок
не должен быть связан с изучаемым
явлением.

Пример: социологические обследования
– люди в алфавитном прорядке.

1)Находится шаг или интервал отбора :

2)Осуществляется отбор из совокупности,
упорядоченной, с указанным шагом

3)Случайная и предельная ошибки находятся
по формулам случайного бесповторного
отбора, так как механический осуществляется
как бесповторный.

Типический отбор используют, если в
ген.совокупности имеются своеобразные
группы единиц (партии сена с разными
сроками заготовки, группы животных на
откорме разного возраста), или же можно
выделить такие группы (коровы с разными
месяцами лактации).

После определения качественно отличных
частей, определяется представительство
из каждой части в выборке

N_i-численность i-той
группы в ген.совокупности, представительство
которой в выборке надо определить; N-
общая численность генеральной
совокупности, n – общая
численность выборки, n_i
– единицы из i-той группы,
которые должны быть взяты в выборку.

Следовательно

Иногда представительство групп в выборке
определяют пропорционально средним
квадратическим отклонениям изучаемого
признака в выделенных группах
ген.совокупности, дисперсиям или объемам
вариации.

Затем производится случайный бесповторный
или механический отборы из групп.

При расчете средней и предельной ошибок
учитывается колеблемость признака
только внутри групп,

Так как остаточная дисперсия является
частью общей, типический отбор обеспечиваем
min ошибку при прочих равных
условиях.

Представительство групп в выборке
устанавливается пропорционально их
численности

Следовательно

Серийный отбор/гнездовой отбор

Выборка формируется из серий/гнезд,
состоящих из нескольких единиц. Отбор
гнезд проводится механически.

При расчете ошибок учитываются только
межсерийные различия. Формулы для
расчента средней и предельной ошибок
для выборочной средней

соответственно средняя и предельная
ошибки выборочной средней, n_iи N_iчисло серий (гнезд) соответственно
в выборочной и ген.совокупностях,

— межсерийная дисперсия.

Под статистической гипотезой понимается
некоторое предположение о ген.совокупности,
которое может быть проверено на основе
выборки. Так как предположение может
касаться распределения численностей
или количественной статистической
характеристики ген.совокупности, эти
гипотезы получили название статистических.

Большинство научных гипотез требуют
экспериментальной проверки, а так как
данные любого эксперимента являются
выборкой, то результаты любого эксперимента
подлежат статистической обработке в
режиме проверки гипотез. Подобная
обработка нужна, чтобы не повторяя до
бесконечности эксперимент (не доводя
до ген.совокупности) иметь основание
на основе единственного эксперимента
(одной выборки) формулировать выводы.

Формулировка двух гипотез: Нулевая
(рабочая) Ho, альтернативная
Ha.

Выбор Ho определяется с
одной стороны практическими соображениями,
а с другой — законом распределения, так
называемого критерия. Практическая
сторона – в качестве Ho
рекомендуется выдвигать предположение
противоположное тому, во что изначально
верит исследователь. Из теории проверки
гипотез следует, что если Ho
была принята, то она – единственно
верная. Если была принята Ha,
то вывод – однозначный. Ну а так как
исследователь заинтересован в
однозначности вывода, то свое предположение
он относит к Ha. Ha-выдвигается
в противоположность Ho.

Ошибка первого рода – Ho
верна, но отвергается, т.к. критерий
находится в критической области. Ошибка
второго рода – Ho не верна,
но мы принимаем ее, т.к значение критерия
случайно оказалось в области согласия

Уровень значимости – вероятность
допущения ошибки первого рода. Также
это совокупная вероятность появления
таких значений критерия, при которых
отвергается Ho. Иногда
уровень значимости трактуется упрощенно,
как вероятность ошибки окончательного
вывода относительно выдвинутых гипотез.
Уровень значимости устанавливается
самим исследователем не выше значения
α=0,10, стандартными уровнями значимости
являются значения равные 0,05 и 0,01.

Соотношение между областью согласия и
критической областью регулируется
уровнем значимости.

Область согласия – круг значений, при
котором принимается Ho.
Критическая область – Ho
отвергается.

При статистической обработке результатов
ошибкам первого и второго, которые
влекут бОльшие материальные потери
должно отдаваться предпочтение, т.е.
они должны минимизироваться. Ошибки
первого рода минимизируются уменьшением
уровня значимости, второго рода –
увеличением до допустимых (0,10) значений.

Статистический критерий – инструмент
проверки выдвинутых гипотез. Это некая
случайная величина, имеющая алгоритм
расчета и закон распределения. Его
значение может быть рассчитано по
выборке – фактическое значение Q_факт. Так как критерий имеет закон
распределения, то можно определить
вероятность появления тех или иных
значений критерия.

Выбор критерия зависит от

содержание гипотезы (распределение
численности, средняя генеральная,
дисперсия в ген.совокупности)
численность выборки

Критерии подразделяются на: параметрические
и непараметрические

Параметрические – выдвигают по отношению
к выборке некие предварительные условия
(о законе распределения). На основе этого
вида критерия делаются более надежные
выводы, и параметрическим критериям
отдается предпочтение

Непараметрические- условий не выдвигают.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

Источник

What Is a Sampling Error?

A sampling error is a statistical error that occurs when an analyst does not select a sample that represents the entire population of data. As a result, the results found in the sample do not represent the results that would be obtained from the entire population.

Sampling is an analysis performed by selecting a number of observations from a larger population. The method of selection can produce both sampling errors and non-sampling errors.

Key Takeaways

A sampling error occurs when the sample used in the study is not representative of the whole population.
Sampling is an analysis performed by selecting a number of observations from a larger population.
Even randomized samples will have some degree of sampling error because a sample is only an approximation of the population from which it is drawn.
The prevalence of sampling errors can be reduced by increasing the sample size.
In general, sampling errors can be placed into four categories: population-specific error, selection error, sample frame error, or non-response error.

Understanding Sampling Errors

A sampling error is a deviation in the sampled value versus the true population value. Sampling errors occur because the sample is not representative of the population or is biased in some way. Even randomized samples will have some degree of sampling error because a sample is only an approximation of the population from which it is drawn.

Calculating Sampling Error

The sampling error formula is used to calculate the overall sampling error in statistical analysis. The sampling error is calculated by dividing the standard deviation of the population by the square root of the size of the sample and then multiplying the resultant with the Z-score value, which is based on the confidence interval.

Sampling Error

where:

score value based on the

confidence interval (approx

1.96

)

Population standard deviation

Size of the sample

\begin{aligned}&\text{Sampling Error}=Z\times\frac{\sigma}{\sqrt{n}}\\&\textbf{where:}\\&Z=Z\text{ score value based on the}\\&\qquad\ \text{confidence interval (approx}=1.96)\\&\sigma=\text{Population standard deviation}\\&n=\text{Size of the sample}\end{aligned}

Sampling Error=Z×nσwhere:Z=Z score value based on the confidence interval (approx=1.96)σ=Population standard deviationn=Size of the sample

Types of Sampling Errors

There are different categories of sampling errors.

Population-Specific Error

A population-specific error occurs when a researcher doesn’t understand who to survey.

Selection Error

Selection error occurs when the survey is self-selected, or when only those participants who are interested in the survey respond to the questions. Researchers can attempt to overcome selection error by finding ways to encourage participation.

Sample Frame Error

A sample frame error occurs when a sample is selected from the wrong population data.

Non-response Error

A non-response error occurs when a useful response is not obtained from the surveys because researchers were unable to contact potential respondents (or potential respondents refused to respond).

Eliminating Sampling Errors

The prevalence of sampling errors can be reduced by increasing the sample size. As the sample size increases, the sample gets closer to the actual population, which decreases the potential for deviations from the actual population. Consider that the average of a sample of 10 varies more than the average of a sample of 100. Steps can also be taken to ensure that the sample adequately represents the entire population.

Researchers might attempt to reduce sampling errors by replicating their study. This could be accomplished by taking the same measurements repeatedly, using more than one subject or multiple groups, or by undertaking multiple studies.

Random sampling is an additional way to minimize the occurrence of sampling errors. Random sampling establishes a systematic approach to selecting a sample. For example, rather than choosing participants to be interviewed haphazardly, a researcher might choose those whose names appear first, 10th, 20th, 30th, 40th, and so on, on the list.

Examples of Sampling Errors

Assume that XYZ Company provides a subscription-based service that allows consumers to pay a monthly fee to stream videos and other types of programming via an Internet connection.

The firm wants to survey homeowners who watch at least 10 hours of programming via the Internet per week and that pay for an existing video streaming service. XYZ wants to determine what percentage of the population is interested in a lower-priced subscription service. If XYZ does not think carefully about the sampling process, several types of sampling errors may occur.

A population specification error would occur if XYZ Company does not understand the specific types of consumers who should be included in the sample. For example, if XYZ creates a population of people between the ages of 15 and 25 years old, many of those consumers do not make the purchasing decision about a video streaming service because they may not work full-time. On the other hand, if XYZ put together a sample of working adults who make purchase decisions, the consumers in this group may not watch 10 hours of video programming each week.

Selection error also causes distortions in the results of a sample. A common example is a survey that only relies on a small portion of people who immediately respond. If XYZ makes an effort to follow up with consumers who don’t initially respond, the results of the survey may change. Furthermore, if XYZ excludes consumers who don’t respond right away, the sample results may not reflect the preferences of the entire population.

Sampling Error vs. Non-sampling Error

There are different types of errors that can occur when gathering statistical data. Sampling errors are the seemingly random differences between the characteristics of a sample population and those of the general population. Sampling errors arise because sample sizes are inevitably limited. (It is impossible to sample an entire population in a survey or a census.)

A sampling error can result even when no mistakes of any kind are made; sampling errors occur because no sample will ever perfectly match the data in the universe from which the sample is taken.

Company XYZ will also want to avoid non-sampling errors. Non-sampling errors are errors that result during data collection and cause the data to differ from the true values. Non-sampling errors are caused by human error, such as a mistake made in the survey process.

If one group of consumers only watches five hours of video programming a week and is included in the survey, that decision is a non-sampling error. Asking questions that are biased is another type of error.

What Is Sampling Error vs. Sampling Bias?

In statistics, sampling means selecting the group that you will actually collect data from in your research.

Sampling bias is the expectation, which is known in advance, that a sample won’t be representative of the true population. For instance, if the sample ends up having proportionally more women or young people than the overall population.

Sampling errors are statistical errors that arise when a sample does not represent the whole population once analyses have been undertaken.

Why Is Sampling Error Important?

Being aware of the presence of sampling errors is important because it can be an indicator of the level of confidence that can be placed in the results. Sampling error is also important in the context of a discussion about how much research results can vary.

How Do You Find the Sampling Error?

In survey research, sampling errors occur because all samples are representative samples: a smaller group that stands in for the whole of your research population. It’s impossible to survey the entire group of people you’d like to reach.

It’s not usually possible to quantify the degree of sampling error in a study since it’s impossible to collect the relevant data from the entire population you are studying. This is why researchers collect representative samples (and representative samples are the reason why there are sampling errors).

What Is Sampling Error vs. Standard Error?

Sampling error is derived from the standard error (SE) by multiplying it by a Z-score value to produce a confidence interval.

The standard error is computed by dividing the standard deviation by the square root of the sample size.

The Bottom Line

Sampling error occurs when a sample drawn from a population deviates somewhat from that true population. Large sampling errors can lead to incorrect estimates or inferences made about the population based on statistical analysis of that sample.

In general, sampling errors can be placed into four categories: population-specific error, selection error, sample frame error, or non-response error. A population-specific error occurs when the researcher does not understand who they should survey. A selection error occurs when respondents self-select their participation in the study. (This results in only those that are interested in responding, which skews the results.) A sample frame error occurs when the wrong sub-population is used to select a sample. Finally, a non-response error occurs when potential respondents are not successfully contacted or refuse to respond.

Источник

Один из первых шагов при планировании количественного маркетингового исследования – определение объема выборки.

Калькулятор для расчета достаточного объема выборки
Калькулятор ошибки выборки для доли признака
Калькулятор ошибки выборки для среднего значения
Калькулятор значимости различий долей
Калькулятор значимости различий средних

1. Формула (даже две)

Бытует заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть объем выборки маркетингового исследования. Это отчасти так, когда объем выборки сопоставим с размером генеральной совокупности. Например, при опросах организаций (B2B).

Если речь идет об исследовании жителей городов, то не важно, Москва это или Рязань – оптимальный объем выборки будет одинаков в обоих городах. Этот принцип следует из закона больших чисел и применим, только если выборка простая случайная.

На рис.1. пример выборки 15000 человек (!) при опросе в муниципальном районе. Возможно, от численности населения взяли 10%?
Размер выборки никогда не рассчитывается как процент от генеральной совокупности!

Рис.1. Размер выборки 15000 человек, как реальный пример некомпетентности (или хуже).

В таких случаях для расчета объема выборки используется следующая формула:

где

n – объем выборки,
Z – коэффициент, зависящий от выбранного исследователем доверительного уровня,
p – доля респондентов с наличием исследуемого признака,
q = 1 – p – доля респондентов, у которых исследуемый признак отсутствует,
∆ – предельная ошибка выборки.

Доверительный уровень – это вероятность того, что реальная доля лежит в границах полученного доверительного интервала: выборочная доля (p) ± ошибка выборки (Δ). Доверительный уровень устанавливает сам исследователь в соответствии со своими требованиями к надежности полученных результатов. Чаще всего применяются доверительные уровни, равные 0,95 или 0,99. В маркетинговых исследованиях, как правило, выбирается доверительный уровень, равный 0,95. При этом уровне коэффициент Z равен 1,96.

Значения p и q чаще всего неизвестны до проведения исследования и принимаются за 0,5. При этом значении размер ошибки выборки максимален.

Допустимая предельная ошибка выборки выбирается исследователем в зависимости от целей исследования. Считается, что для принятия бизнес-решений ошибка выборки должна быть не больше 4%. Этому значению соответствует объем выборки 500-600 респондентов. Для важных стратегических решений целесообразно минимизировать ошибку выборки.

Рассмотрим кривую зависимости ошибки выборки от ее объема (Рис.2).

Рис.2. Зависимость ошибки выборки от ее объема при 95% доверительном уровне

Как видно из диаграммы, с ростом объема выборки значение ошибки уменьшается все медленнее. Так, при объеме выборки 1500 человек предельная ошибка выборки составит ±2,5%, а при объеме 2000 человек – ±2,2%. То есть, при определенном объеме выборки дальнейшее его увеличение не дает значительного выигрыша в ее точности.

ШПАРГАЛКА (скопируйте ссылку или текст)

Подходы к решению проблемы:

Случай 1. Генеральная совокупность значительно больше выборки:

Случай 2. Генеральная совокупность сопоставима с объемом выборки: (см. раздел исследований B2B)

где
n – объем выборки,

N – объем генеральной совокупности,

Z – коэффициент, зависящий от выбранного исследователем доверительного уровня,

p – доля респондентов с наличием исследуемого признака,

q = 1 – p – доля респондентов, у которых исследуемый признак отсутствует, (значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования)

∆ – предельная ошибка выборки.

Например,

рассчитаем ошибку выборки объемом 1000 человек при 95% доверительном уровне, если генеральная совокупность значительно больше объема выборки:

Ошибка выборки = 1,96 * КОРЕНЬ(0,5*0,5/1000) = 0,031 = ±3,1%

При расчете объема выборки следует также учитывать стоимость проведения исследования. Например, при цене за 1 анкету 200 рублей стоимость опроса 1000 человек составит 200 000 рублей, а опрос 1500 человек будет стоить 300 000 рублей. Увеличение затрат в полтора раза сократит ошибку выборки всего на 0,6%, что обычно неоправданно экономически.

2. Причины «раздувать» выборку

Анализ полученных данных обычно включает в себя и анализ подвыборок, объемы которых меньше основной выборки. Поэтому ошибка для выводов по подвыборкам больше, чем ошибка по выборке в целом. Если планируется анализ подгрупп / сегментов, объем выборки должен быть увеличен (в разумных пределах).

Рис.3 демонстрирует данную ситуацию. Если для исследования авиапассажиров используется выборка численностью 500 человек, то для выводов по выборке в целом ошибка составляет 4,4%, что вполне приемлемо для принятия бизнес-решений. Но при делении выборки на подгруппы в зависимости от цели поездки, выводы по каждой подгруппе уже недостаточно точны. Если мы захотим узнать какие-либо количественные характеристики группы пассажиров, совершающих бизнес-поездку и покупавших билет самостоятельно, ошибка полученных показателей будет достаточно велика. Даже увеличение выборки до 2000 человек не обеспечит приемлемой точности выводов по этой подвыборке.

Рис.3. Проектирование объема выборки с учетом необходимости анализа подвыборок

Другой пример – анализ подгрупп потребителей услуг торгово-развлекательного центра (Рис.4).

Рис.4. Потенциальный спрос на услуги торгово-развлекательного центра

При объеме выборки в 1000 человек выводы по каждой отдельной услуге (например, социально-демографический профиль, частота пользования, средний чек и др.) будут недостаточно точными для использования в бизнес планировании. Особенно это касается наименее популярных услуг (Таблица 1).

Таблица 1. Ошибка по подвыборкам потенциальных потребителей услуг торгово-развлекательного центра при выборке 1000 чел.

Чтобы ошибка в самой малочисленной подвыборке «Ночной клуб» составила меньше 5%, объем выборки исследования должен составлять около 4000 человек. Но это будет означать 4-кратное удорожание проекта. В таких случаях возможно компромиссное решение:

увеличение выборки до 1800 человек, что даст достаточную точность для 6 самых популярных видов услуг (от кинотеатра до парка аттракционов);
добор 200-300 пользователей менее популярных услуг с опросом по укороченной анкете (см. Таблицу 2).

Таблица 2. Разница в ошибке выборки по подвыборкам при разных объемах выборки.

При обсуждении с исследовательским агентством точности результатов планируемого исследования рекомендуется принимать во внимание бюджет, требования к точности результатов в целом по выборке и в разрезе подгрупп. Если бюджет не позволяет получить информацию с приемлемой ошибкой, лучше пока отложить проект (или поторговаться).

КАЛЬКУЛЯТОРЫ ДЛЯ РАСЧЕТА СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ И ОПРЕДЕЛЕНИЯ ЗНАЧИМОСТИ РАЗЛИЧИЙ:

КАЛЬКУЛЯТОР ДЛЯ РАСЧЕТА
ДОСТАТОЧНОГО ОБЪЁМА ВЫБОРКИ

Доверительный уровень:

Ошибка выборки (?):
%

Объём генеральной совокупности (N):
(можно пропустить, если больше 100 000)

РЕЗУЛЬТАТ

Один из важных вопросов, на которые нужно ответить при планировании исследования, — это оптимальный объем выборки. Слишком маленькая выборка не сможет обеспечить приемлемую точность результатов опроса, а слишком большая приведет к лишним расходам.

Онлайн-калькулятор объема выборки поможет рассчитать оптимальный размер выборки, исходя из максимально приемлемого для исследователя размера ошибки выборки.

Все дальнейшие формулы и расчеты относятся только к простой случайной выборке!
Формулы для других типов выборки отличаются.

Объем выборки рассчитывается по следующим формулам

1) если объем выборки значительно меньше генеральной совокупности:

(в данной формуле не используется показатель объема генеральной совокупности N)

2) если объем выборки сопоставим с объемом генеральной совокупности:

В приведенных формулах:

Z – коэффициент, зависящий от выбранного исследователем доверительного уровня. Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень. Ему соответствует значение Z = 1,96.

N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели соков и нектаров, постоянно проживающие в Москве и Московской области). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).

p – доля респондентов с наличием исследуемого признака. Например, если 20% опрошенных заинтересованы в новом продукте, то p = 0,2.

q = 1 — p – доля респондентов, у которых исследуемый признак отсутствует. Значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования. При этом значении размер ошибки выборки максимален. В данном калькуляторе значения p и q по умолчанию равны 0,5.

Δ– предельная ошибка выборки (для доли признака), приемлемая для исследователя. Считается, что для принятия бизнес-решений ошибка выборки не должна превышать 4%.

n – объем выборки. Объем выборки – это количество людей, которые опрашиваются в исследовании.

ПРИМЕР РАСЧЕТА ОБЪЕМА ВЫБОРКИ:

Допустим, мы хотим рассчитать объем выборки, предельная ошибка которой составит 4%. Мы принимаем доверительный уровень, равный 95%. Генеральная совокупность значительно больше выборки. Тогда объем выборки составит:

n = 1,96 * 1,96 * 0,5 * 0,5 / (0,04 * 0,04) = 600,25 ≈ 600 человек

Таким образом, если мы хотим получить результаты с предельной ошибкой 4%, нам нужно опросить 600 человек.

КАЛЬКУЛЯТОР ОШИБКИ ВЫБОРКИ ДЛЯ ДОЛИ ПРИЗНАКА

Доверительный уровень:

Объём выборки (n):

Объём генеральной совокупности (N):
(можно пропустить, если больше 100 000)

Доля признака (p):
%

РЕЗУЛЬТАТ

Зная объем выборки исследования, можно рассчитать значение ошибки выборки (или, другими словами, погрешность выборки).

Если бы в ходе исследования мы могли опросить абсолютно всех интересующих нас людей, мы могли бы быть на 100% уверены в полученном результате. Но ввиду экономической нецелесообразности сплошного опроса применяют выборочный подход, когда опрашивается только часть генеральной совокупности. Выборочный метод не гарантирует 100%-й точности измерения, но, тем не менее, вероятность ошибки может быть сведена к приемлемому минимуму.

Все дальнейшие формулы и расчеты относятся только к простой случайной выборке! Формулы для других типов выборки отличаются.

Ошибка выборки для доли признака рассчитывается по следующим формулам.

1) если объем выборки значительно меньше генеральной совокупности:

(в данной формуле не используется показатель объема генеральной совокупности N)

2) если объем выборки сопоставим с объемом генеральной совокупности:

В приведенных формулах:

N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели шоколада, постоянно проживающие в Москве). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).

n – объем выборки. Объем выборки – это количество людей, которые опрашиваются в исследовании. Существует заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть и объем выборки маркетингового исследования. Это отчасти так, когда объем выборки сопоставим с объемом генеральной совокупности. Например, при опросах организаций (B2B). Если же речь идет об исследовании жителей городов, то не важно, Москва это или Рязань – оптимальный объем выборки будет одинаков в обоих городах. Этот принцип следует из закона больших чисел и применим, только если выборка простая случайная. ВАЖНО: если предполагается сравнивать какие-то группы внутри города, например, жителей разных районов, то выборку следует рассчитывать для каждой такой группы.

Δ– предельная ошибка выборки.

Таким образом, зная объем выборки исследования, мы можем заранее оценить показатель ее ошибки.
А получив значение p, мы можем рассчитать доверительный интервал для доли признака: (p — ∆; p + ∆)

ПРИМЕР РАСЧЕТА ОШИБКИ ВЫБОРКИ ДЛЯ ДОЛИ ПРИЗНАКА:

Например, в ходе исследования были опрошены 1000 человек (n=1000). 20% из них заинтересовались новым продуктом (p=0,2). Рассчитаем показатель ошибки выборки по формуле 1 (выберем доверительный уровень, равный 95%):

∆ = 1,96 * КОРЕНЬ (0,2*0,8/1000) = 0,0248 = ±2,48%

Рассчитаем доверительный интервал:

(p — ∆; p + ∆) = (20% — 2,48%; 20% + 2,48%) = (17,52%; 22,48%)

Таким образом, с вероятностью 95% мы можем быть уверены, что реальная доля заинтересованных в новом продукте (среди всей генеральной совокупности) находится в пределах полученного диапазона (17,52%; 22,48%).

Если бы мы выбрали доверительный уровень, равный 99%, то для тех же значений p и n ошибка выборки была бы больше, а доверительный интервал – шире. Это логично, поскольку, если мы хотим быть более уверены в том, что наш доверительный интервал «накроет» реальное значение признака, то интервал должен быть более широким.

КАЛЬКУЛЯТОР ОШИБКИ ВЫБОРКИ ДЛЯ СРЕДНЕГО ЗНАЧЕНИЯ

Доверительный уровень:

Объём выборки (n):

Объём генеральной совокупности (N):
(можно пропустить, если больше 100 000)

Среднее значение (x̄):

Стандартное отклонение (s):

РЕЗУЛЬТАТ

Ошибка выборки для среднего значения рассчитывается по следующим формулам.

1) если объем выборки значительно меньше генеральной совокупности:

(в данной формуле не используется показатель объема генеральной совокупности N)

2) если объем выборки сопоставим с объемом генеральной совокупности:

В приведенных формулах:

N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели мороженого, постоянно проживающие в Москве). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).

s — выборочное стандартное отклонение измеряемого показателя. В идеале на месте этого аргумента должно быть стандартное отклонение показателя в генеральной совокупности (σ), но так как обычно оно неизвестно, используется выборочное стандартное отклонение, рассчитываемое по следующей формуле:

где, x ̅ – среднее арифметическое показателя, x_i– значение i-го показателя, n – объем выборки

Δ– предельная ошибка выборки.

Зная среднее значение показателя x ̅ и ошибку ∆, мы можем рассчитать доверительный интервал для среднего значения:(x ̅ — ∆; x ̅ + ∆)

ПРИМЕР РАСЧЕТА ОШИБКИ ВЫБОРКИ ДЛЯ СРЕДНЕГО ЗНАЧЕНИЯ:

Например, в ходе исследования были опрошены 1000 человек (n=1000). Каждого из них попросили указать их примерную среднюю сумму покупки (средний чек) в известной сети магазинов. Среднее арифметическое всех ответов составило 500 руб. (x ̅=500), а стандартное отклонение составило 120 руб. (s=120). Рассчитаем показатель ошибки выборки по формуле 1 (выберем доверительный уровень, равный 95%):

∆ = 1,96 * 120 / КОРЕНЬ (1000) = 7,44

Рассчитаем доверительный интервал:

(x ̅ — ∆; x ̅ + ∆) = (500 – 7,44; 500 + 7,44) = (492,56; 507,44)

Таким образом, с вероятностью 95% мы можем быть уверены, что значение среднего чека по всей генеральной совокупности находится в границах полученного диапазона: от 492,56 руб. до 507,44 руб.

КАЛЬКУЛЯТОР ЗНАЧИМОСТИ РАЗЛИЧИЙ ДОЛЕЙ

Доверительный уровень:

	Измерение 1	Измерение 2
Доля признака (p):	%	%
Объём выборки (n):

РЕЗУЛЬТАТ

Если в прошлогоднем исследовании вашу марку вспомнили 10% респондентов, а в исследовании текущего года – 15%, не спешите открывать шампанское, пока не воспользуетесь нашим онлайн-калькулятором для оценки статистической значимости различий.

Сравнивая два разных значения, полученные на двух независимых выборках, исследователь должен убедиться, что различия статистически значимы, прежде чем делать выводы.

Как известно, выборочные исследования не обеспечивают 100%-й точности измерения (для этого пришлось бы опрашивать всю целевую аудиторию поголовно, что слишком дорого). Тем не менее, благодаря методам математической статистики, мы можем оценить точность результатов любого количественного исследования и учесть ее в выводах.

В приведенном здесь калькуляторе используется двухвыборочный z-тест для долей. Для его применения должны соблюдаться следующие условия:

Обе выборки – простые случайные
Выборки независимы (между значениями двух выборок нет закономерной связи)
Генеральные совокупности значительно больше выборок
Произведения n*p и n*(1-p), где n=размер выборки а p=доля признака, – не меньше 5.

В калькуляторе используются следующие вводные данные:

Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень.

Доля признака (p) – доля респондентов с наличием исследуемого признака. Например, если 20% опрошенных заинтересованы в новом продукте, то p = 0,2.

Объем выборки (n) – это количество людей, которые опрашиваются в исследовании.

Результат расчетов – вывод о статистической значимости или незначимости различий двух измерений.

КАЛЬКУЛЯТОР ЗНАЧИМОСТИ РАЗЛИЧИЙ СРЕДНИХ

Доверительный уровень:

	Измерение 1	Измерение 2
Среднее значение (x̄):
Стандартное отклонение (s):
Объём выборки (n):

РЕЗУЛЬТАТ

Допустим, выборочный опрос посетителей двух разных ТРЦ показал, что средний чек в одном из них равен 1000 рублей, а в другом – 1200 рублей. Следует ли отсюда вывод, что суммы среднего чека в двух этих ТРЦ действительно отличаются?

В приведенном здесь калькуляторе используется двухвыборочный z-тест для средних значений. Для его применения должны соблюдаться следующие условия:

Обе выборки – простые случайные
Выборки независимы (между значениями двух выборок нет закономерной связи)
Генеральные совокупности значительно больше выборок
Распределения значений в выборках близки к нормальному распределению.

В калькуляторе используются следующие вводные данные:

Среднее значение ( ̅x) – среднее арифметическое показателя.

Стандартное отклонение (s) – выборочное стандартное отклонение измеряемого показателя. В идеале на месте этого аргумента должно быть стандартное отклонение показателя в генеральной совокупности (σ), но так как обычно оно неизвестно, используется выборочное стандартное отклонение, рассчитываемое по следующей формуле:

где, x ̅ – среднее арифметическое показателя, x_i– значение i-го показателя, n – объем выборки

Объем выборки (n) – это количество людей, которые опрашиваются в исследовании.

Результат расчетов – вывод о статистической значимости или незначимости различий двух измерений.

Вы можете подписаться на уведомления о новых материалах СканМаркет

Источник

3. Ошибки выборки

Каждая единица при выборочном наблюдении должна иметь равную с другими возможность быть отобранной – это является основой собственнослучайной выборки.

Собственнослучайная выборка – это отбор единиц из всей генеральной совокупности посредством жеребьевки или другим подобным способом.

Принципом случайности является то, что на включение или исключение объекта из выборки не может повлиять любой фактор, кроме случая.

Доля выборки – это отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

Собственнослучайный отбор в чистом виде является исходным среди всех других видов отбора, в нем заключаются и реализуются основные принципы выборочного статистического наблюдения.

Два основных вида обобщающих показателей, которые используют в выборочном методе – это средняя величина количественного признака и относительная величина альтернативного признака.

Выборочная доля (w), или частность, определяется отношением числа единиц, обладающих изучаемым признаком m, к общему числу единиц выборочной совокупности (n):

Для характеристики надежности выборочных показателей различают среднюю и предельную ошибки выборки.

Ошибка выборки, ее еще называют ошибкой репрезентативности, представляет собой разность соответствующих выборочных и генеральных характеристик:

1) для средней количественного признака:

?х =|х – х|;

2) для доли (альтернативного признака):

?w =|х – p|.

Только выборочным наблюдениям присуща ошибка выборки

Выборочная средняя и выборочная доля – это случайные величины, принимающие различные значения в зависимости от единиц изучаемой статистической совокупности, которые попали в выборку. Соответственно ошибки выборки – тоже случайные величины и также могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок – среднюю ошибку выборки.

Средняя ошибка выборки определяется объемом выборки: чем больше численность при прочих равных условиях, тем меньше величина средней ошибки выборки. Охватывая выборочным обследованием все большее количество единиц генеральной совокупности, все более точно характеризуем всю генеральную совокупность.

Средняя ошибка выборки зависит от степени варьирования изучаемого признака, в свою очередь степень варьирования характеризуется дисперсией ?² или w(l – w) – для альтернативного признака. Чем меньше вариация признака и дисперсия, тем меньше средняя ошибка выборки, и наоборот.

При случайном повторном отборе средние ошибки теоретически рассчитывают по следующим формулам:

1) для средней количественного признака:

где ?² – средняя величина дисперсии количественного признака.

2) для доли (альтернативного признака):

Так как дисперсия признака в генеральной совокупности ?²точно неизвестна, на практике пользуются значением дисперсии S² , рассчитанным для выборочной совокупности на основании закона больших чисел, согласно которому выборочная совокупность при достаточно большом объеме выборки достаточно точно воспроизводит характеристики генеральной совокупности.

Формулы средней ошибки выборки при случайном повторном отборе следующие. Для средней величины количественного признака: генеральная дисперсия выражается через выборную следующим соотношением:

где S² – значение дисперсии.

Механическая выборка – это отбор единиц в выборочную совокупность из генеральной, которая разбита по нейтральному признаку на равные группы; производится так, что из каждой такой группы в выборку отбирается лишь одна единица.

При механическом отборе единицы изучаемой статистической совокупности предварительно располагают в определенном порядке, после чего отбирают заданное число единиц механически через определенный интервал. При этом размер интервала в генеральной совокупности равен обратному значению доли выборки.

При достаточно большой совокупности механический отбор по точности результатов близок к собственнослучайному Поэтому для определения средней ошибки механической выборки используют формулы собственнослучайной бесповторной выборки.

Для отбора единиц из неоднородной совокупности применяется так называемая типическая выборка, используется, когда все единицы генеральной совокупности можно разбить на несколько качественно однородных, однотипных групп по признакам, от которых зависят изучаемые показатели.

Затем из каждой типической группы собственнослучайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность.

Типическая выборка обычно применяется при изучении сложных статистических совокупностей.

Типическая выборка дает более точные результаты. Типизация генеральной совокупности обеспечивает репрезентативность такой выборки, представительство в ней каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. Поэтому при определении средней ошибки типической выборки в качестве показателя вариации выступает средняя из внутригрупповых дисперсий.

Серийная выборка предполагает случайный отбор из генеральной совокупности равновеликих групп для того, чтобы в таких группах подвергать наблюдению все без исключения единицы.

Поскольку внутри групп (серий) обследуются все без исключения единицы, средняя ошибка выборки (при отборе равновеликих серий) зависит только от межгрупповой (межсерийной) дисперсии.

Данный текст является ознакомительным фрагментом.

Конкретная ошибка выборки, распределение конкретных ошибок выборки

Средняя ошибка выборки для выборочной средней и выборочной доли

What Is a Sampling Error?

Key Takeaways

Understanding Sampling Errors

Calculating Sampling Error

Types of Sampling Errors

Population-Specific Error

Selection Error

Sample Frame Error

Non-response Error

Eliminating Sampling Errors

Examples of Sampling Errors

Sampling Error vs. Non-sampling Error

What Is Sampling Error vs. Sampling Bias?

Why Is Sampling Error Important?

How Do You Find the Sampling Error?

What Is Sampling Error vs. Standard Error?

The Bottom Line

КАЛЬКУЛЯТОРЫ ДЛЯ РАСЧЕТА СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ И ОПРЕДЕЛЕНИЯ ЗНАЧИМОСТИ РАЗЛИЧИЙ:

Читайте также

Ошибки резидента

Формирование выборки

Ошибки в инвестициях – это ошибки инвесторов

29. Определение необходимой численности выборки

30. Способы отбора и виды выборки. Собственно случайная выборка

31. Механическая и типическая выборки

32. Серийная и комбинированная выборки

33. Многоступенчатая, многофазная и взаимопроникающая выборки.

3. Определение необходимой численности выборки

4. Способы отбора и виды выборки

36. Ошибки выборки

Лексические ошибки

5 Наши ошибки

Важность размера выборки

Репрезентативные выборки

Размер выборки