Ошибки выборки бывают случайными и систематическими

Поскольку
выборка охватывает , как правило,
весьма незначительную часть генеральной
совокупности, то следует предполагать,
что будут иметь место различия между
оценкой и характеристикой генеральной
совокупности, которую эта оценка
отображает. Эти различия получили
название ошибок отображения или ошибок
репрезентативности. Ошибки
репрезентативности подразделяются
на два типа : систематические и случайные.

Систематические
ошибки

это постоянное завышение или занижение
значения оценки по сравнению с
характеристикой генеральной совокупности
. Причиной появления систематической
ошибки является несоблюдение принципа
равновероятности попадания каждой
единицы генеральной совокупности в
выборку , то есть выборка формируется
из преимущественно «худших» ( или «
лучших») представителей генеральной
совокупности. Соблюдение принципа
равновозможности попадания каждой
единицы в выборку позволяет полностью
исключить этот тип ошибок .

Случайные
ошибки

это меняющиеся
от выборки к выборке по знаку и величине
различия между оценкой и оцениваемой
характеристикой генеральной совокупности
. Причина возникновения случайных
ошибок- игра случая при формировании
выборки, составляющей лишь часть
генеральной совокупности. Этот тип
ошибок органически присущ выборочному
методу. Исключить их полностью нельзя,
задача состоит в том , чтобы предсказать
их возможную величину и свести их к
минимуму. Порядок связанных в связи
с этим действий вытекает из рассмотрения
трех видов случайных ошибок : конкретной
, средней и предельной.

2.2 Конкретная, средняя и предельная ошибки выборки

2.2.1
Конкретная

ошибка – это ошибка одной проведенной
выборки. Если средняя по этой выборке
(
) является оценкой для генеральной
средней (0
) и, если
предположить, что эта генеральная
средняя нам известна , то разница
=0
и будет
конкретной ошибкой этой выборки. Если
из этой генеральной совокупности
выборку повторим многократно, то каждый
раз получим новую величину конкретной
ошибки :
…,
и так далее.
Относительно этих конкретных ошибок
можно сказать следующее: некоторые из
них будут совпадать между собой по
величине и знаку, то есть имеет место
распределение ошибок, часть из них
будет равна 0, наблюдается совпадение
оценки и параметра генеральной
совокупности;

2.2.2
Средняя ошибка

– это средняя квадратическая из всех
возможных по воле случая конкретных
ошибок оценки :
,
где— величина меняющихся конкретных
ошибок;частота
( вероятность ) встречаемости той или
иной конкретной ошибки. Средняя
ошибка выборки показывает насколько
в среднем можно ошибиться , если на
основе оценки делается суждение о
параметре генеральной совокупности.
Приведенная формула раскрывает
содержание средней ошибки, но она не
может быть использована для практических
расчетов, хотя бы потому, что предполагает
знание параметра генеральной совокупности
, что само по себе исключает необходимость
выборки.

Практические
расчеты средней ошибки оценки
основываются на той предпосылке, что
она ( средняя ошибка ) по сути является
средним квадратическим отклонением
всех возможных значений оценки. Эта
предпосылка позволяет получить алгоритмы
расчета средней ошибки, опирающиеся
на данные одной единственной выборки.
В частности средняя ошибка выборочной
средней может быть установлена на
основе следующих рассуждений. Имеется
выборка (
,) состоящая изединиц. По выборке в качестве оценки
генеральной средней определена
выборочная средняя. Каждое значение(,) , стоящее под знаком суммы, следует
рассматривать как независимую случайную
величину, поскольку при бесконечном
повторении выборки первая, вторая и
т.д. единицы могут принимать любые
значения из присутствующих в генеральной
совокупности. СледовательноПоскольку , как известно, дисперсия
суммы независимых случайных величин
равна сумме дисперсий , то.
Отсюда следует, что средняя ошибка для
выборочной средней будет равнаяи находится она в обратной зависимости
от численности выборки ( через корень
квадратный из нее ) и в прямой от среднего
квадратического отклонения признака
в генеральной совокупности. Это логично,
поскольку выборочная средняя является
состоятельной оценкой для генеральной
средней и по мере увеличения численности
выборки приближается по своему значению
к оцениваемому параметру генеральной
совокупности. Прямая зависимость
средней ошибки от колеблемости признака
обусловлена тем, что чем больше
изменчивость признака в генеральной
совокупности, тем сложнее на основе
выборки построить адекватную модель
генеральной совокупности. На практике
среднее квадратическое отклонение
признака по генеральной совокупности
заменяется его оценкой по выборке, и
тогда формула для расчета средней
ошибки выборочной средней приобретает
вид:,
при этом учитывая смещенность
выборочной дисперсии,
выборочное среднее квадратическое
отклонение рассчитывается по формуле=. Так как символомn
обозначена численность выборки. ,то
в знаменателе при расчете среднего
квадратического отклонения должна
использоваться не численность выборки
( n
), а так называемое число степеней
свободы (n-1).
Под числом степеней свободы понимается
число единиц в совокупности, которые
могут свободно варьировать ( изменяться
), если по совокупности определена
какая-либо характеристика. В нашем
случае , поскольку по выборке определена
ее средняя, свободно варьировать могут

единицы.

В
таблице 2.2 приведены формулы для
расчета средних ошибок различных
выборочных оценок . Как видно из этой
таблицы, величина средней ошибки по
всем оценкам находится в обратной связи
с численностью выборки и в прямой с
колеблемостью. Это можно сказать и
относительно средней ошибки выборочной
доли ( частости ). Под корнем стоит
дисперсия альтернативного признака,
установленная по выборке (
)

Приведенные
в таблице 2.2 формулы относятся к так
называемому случайному , повторному
отбору единиц в выборку. При других
способах отбора , о которых речь пойдет
ниже, формулы будут несколько
видоизменяться.

Таблица
2.2

Формулы для
расчета средних ошибок выборочных
оценок

Выборочные
оценки

Формулы
для расчета средней ошибки выборочной
оценки

Выборочная
средняя (
)

Выборочная
дисперсия
(
)

Выборочное
среднее квадратическое отклонение
( s
)

Выборочная
доля (w
)

2.2.3
Предельная ошибка выборки

Знание оценки и ее средней ошибки в
ряде случаев совершенно недостаточно
. Например , при использовании гормонов
при кормлении животных знать только
средний размер неразложившихся их
вредных остатков и среднюю ошибку,
значит подвергать потребителей продукции
серьезной опасности. Здесь настоятельно
напрашивается необходимость определения
максимальной ( предельной
ошибки
).
При использовании выборочного метода
предельная ошибка устанавливается не
в виде конкретной величины , а виде
равных границ

(
интервалов) в ту и другую сторону от
значения оценки.

Определение
границ предельной ошибки основывается
на особенностях распределения конкретных
ошибок . Для так называемых больших
выборок, численность которых более 30
единиц (
)
, конкретные ошибки распределяются в
соответствии с нормальным законом
распределения; при малых выборках () конкретные ошибки распределяются
в соответствии с законом распределения
Госсета

(
Стьюдента ). Применительно к конкретным
ошибкам выборочной средней функция
нормального распределения имеет
вид:
,
где— плотность вероятности появления тех
или иных значений,
при условии, что,
гдевыборочные средние;
генеральная средняя,— средняя ошибка для выборочной
средней. Поскольку средняя ошибка
()
является величиной постоянной, то в
соответствии с нормальным законом
распределяются конкретные ошибки,
выраженные в долях средней ошибки, или
так называемых нормированных отклонениях
.

Взяв
интеграл функции нормального
распределения, можно установить
вероятность того , что ошибка будет
заключена в некотором интервале
изменения t
и вероятность того, что ошибка выйдет
за пределы этого интервала ( обратное
событие ). Например , вероятность того,
что ошибка не превысит половину средней
ошибки ( в ту и другую сторону от
генеральной средней ) составляет
0,3829, что ошибка будет заключена в
пределах одной средней ошибки — 0,6827,
2-х средних ошибок -0,9545 и так далее.

Взаимосвязь
между уровнем вероятности и интервалом
изменения t
( а в конечном счете интервалом
изменения ошибки ) позволяет подойти
к определению интервала ( или границ )
предельной ошибки, увязав его величину
с вероятностью осуществления..
Вероятность осуществления -это
вероятность того, что ошибка будет
находится в некотором интервале.
Вероятность осуществления будет
«доверительной» в том случае, если
противоположное событие ( ошибка будет
находится вне интервала ) имеет такую
вероятность появления, которой можно
пренебречь. Поэтому доверительный
уровень вероятности устанавливают,
как правило, не ниже 0,90 (вероятность
противоположного события равна 0,10 ).
Чем больше негативных последствий
имеет появление ошибок вне установленного
интервала, тем выше должен быть
доверительный уровень вероятности (
0,95; 0,99 ; 0,999 и так далее ).

Выбрав
доверительный уровень вероятности
по таблице интеграла вероятности
нормального распределения, следует
найти соответствующее значение t,
а затем используя выражение
=определить интервал предельной ошибки.
Смысл полученной величины в следующем
– с принятым доверительным уровнем
вероятности предельная ошибка выборочной
средней не превысит величину.

Для
установления границ предельной ошибки
на основе больших выборок для других
оценок ( дисперсии, среднего квадратического
отклонения, доли и так далее ) используется
выше рассмотренный подход, с учетом
того, что для определения средней
ошибки для каждой оценки используется
свой алгоритм.

Что
касается малых выборок () то, как уже говорилось, распределение
ошибок оценок соответствует в этом
случае распределениюt
— Стьюдента. Особенность этого
распределения состоит в том, что в
качестве параметра в нем , наряду с
ошибкой, присутствует численность
выборки ,вернее не численность выборки,
а число степеней свободы
При увеличении численности выборки
распределениеt-Стьюдента
приближается к нормальному, а при
эти распределения практически совпадают.
Сопоставляя значения величиныt-Стьюдента
и t
— нормального распределения при одной
и той же доверительной вероятности
можно сказать , что величина t-Стьюдента
всегда больше t
— нормального распределения, причем,
различия возрастают с уменьшением
численности выборки и с повышением
доверительного уровня вероятности.
Следовательно, при использовании малых
выборок имеют место по сравнению с
выборками большими , более широкие
границы предельной ошибки, причем , эти
границы расширяются с уменьшением
численности выборки и повышением
доверительного уровня вероятности.

Вопросы для
повторения

6-1.Какова
природа конкретной, средней и предельной
ошибок ?

6-2.Как
соблюсти принцип равновероятности
каждой единицы попасть в выборку при
выборочном устном опросе студентов ?

6-3 Каков источник
систематической ошибки ?

6-4.Какова
вероятность появления ошибки в 2.5 раза
превышающей среднюю?

6-5.Какие
различия в знаках ( + , — ) имеют
систематические и случайные ошибки?

6-6.Каковы основные
пути уменьшения средней и предельной
ошибки ?

6-7.При какой
выборочной доле имеет место ее наибольшая
ошибка ?

6-8.При какой доле
признака имеет место ее наименьшая
ошибка 7

6-9.При
каких выборках ( больших или малых )
при прочих равных условиях имеет место
большая предельная ошибка ?

Резюме по
модульной единице 2

Использование
выборочного метода неизбежно сопряжено
с появлением ошибок. Случайный характер
этих ошибок, нормальный или t
— Стьюдента закон их распределения
позволяет определить их средний и
предельный размер и видеть пути их
снижения

Модульная
единица 3 Типовые задачи решаемые на
основе выборочного метода

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

What Is a Sampling Error?

A sampling error is a statistical error that occurs when an analyst does not select a sample that represents the entire population of data. As a result, the results found in the sample do not represent the results that would be obtained from the entire population.

Sampling is an analysis performed by selecting a number of observations from a larger population. The method of selection can produce both sampling errors and non-sampling errors.

Key Takeaways

  • A sampling error occurs when the sample used in the study is not representative of the whole population. 
  • Sampling is an analysis performed by selecting a number of observations from a larger population.
  • Even randomized samples will have some degree of sampling error because a sample is only an approximation of the population from which it is drawn.
  • The prevalence of sampling errors can be reduced by increasing the sample size.
  • In general, sampling errors can be placed into four categories: population-specific error, selection error, sample frame error, or non-response error.

Understanding Sampling Errors

A sampling error is a deviation in the sampled value versus the true population value. Sampling errors occur because the sample is not representative of the population or is biased in some way. Even randomized samples will have some degree of sampling error because a sample is only an approximation of the population from which it is drawn.

Calculating Sampling Error

The sampling error formula is used to calculate the overall sampling error in statistical analysis. The sampling error is calculated by dividing the standard deviation of the population by the square root of the size of the sample and then multiplying the resultant with the Z-score value, which is based on the confidence interval.

Sampling Error

=

Z

×

σ

n

where:

Z

=

Z

 score value based on the

 confidence interval (approx

=

1.96

)

σ

=

Population standard deviation

n

=

Size of the sample

\begin{aligned}&\text{Sampling Error}=Z\times\frac{\sigma}{\sqrt{n}}\\&\textbf{where:}\\&Z=Z\text{ score value based on the}\\&\qquad\ \text{confidence interval (approx}=1.96)\\&\sigma=\text{Population standard deviation}\\&n=\text{Size of the sample}\end{aligned}

Sampling Error=Z×nσwhere:Z=Z score value based on the confidence interval (approx=1.96)σ=Population standard deviationn=Size of the sample

Types of Sampling Errors

There are different categories of sampling errors.

Population-Specific Error

A population-specific error occurs when a researcher doesn’t understand who to survey.

Selection Error

Selection error occurs when the survey is self-selected, or when only those participants who are interested in the survey respond to the questions. Researchers can attempt to overcome selection error by finding ways to encourage participation.

Sample Frame Error

A sample frame error occurs when a sample is selected from the wrong population data.

Non-response Error

A non-response error occurs when a useful response is not obtained from the surveys because researchers were unable to contact potential respondents (or potential respondents refused to respond).

Eliminating Sampling Errors

The prevalence of sampling errors can be reduced by increasing the sample size. As the sample size increases, the sample gets closer to the actual population, which decreases the potential for deviations from the actual population. Consider that the average of a sample of 10 varies more than the average of a sample of 100. Steps can also be taken to ensure that the sample adequately represents the entire population.

Researchers might attempt to reduce sampling errors by replicating their study. This could be accomplished by taking the same measurements repeatedly, using more than one subject or multiple groups, or by undertaking multiple studies.

Random sampling is an additional way to minimize the occurrence of sampling errors. Random sampling establishes a systematic approach to selecting a sample. For example, rather than choosing participants to be interviewed haphazardly, a researcher might choose those whose names appear first, 10th, 20th, 30th, 40th, and so on, on the list.

Examples of Sampling Errors

Assume that XYZ Company provides a subscription-based service that allows consumers to pay a monthly fee to stream videos and other types of programming via an Internet connection.

The firm wants to survey homeowners who watch at least 10 hours of programming via the Internet per week and that pay for an existing video streaming service. XYZ wants to determine what percentage of the population is interested in a lower-priced subscription service. If XYZ does not think carefully about the sampling process, several types of sampling errors may occur.

A population specification error would occur if XYZ Company does not understand the specific types of consumers who should be included in the sample. For example, if XYZ creates a population of people between the ages of 15 and 25 years old, many of those consumers do not make the purchasing decision about a video streaming service because they may not work full-time. On the other hand, if XYZ put together a sample of working adults who make purchase decisions, the consumers in this group may not watch 10 hours of video programming each week.

Selection error also causes distortions in the results of a sample. A common example is a survey that only relies on a small portion of people who immediately respond. If XYZ makes an effort to follow up with consumers who don’t initially respond, the results of the survey may change. Furthermore, if XYZ excludes consumers who don’t respond right away, the sample results may not reflect the preferences of the entire population.

Sampling Error vs. Non-sampling Error

There are different types of errors that can occur when gathering statistical data. Sampling errors are the seemingly random differences between the characteristics of a sample population and those of the general population. Sampling errors arise because sample sizes are inevitably limited. (It is impossible to sample an entire population in a survey or a census.)

A sampling error can result even when no mistakes of any kind are made; sampling errors occur because no sample will ever perfectly match the data in the universe from which the sample is taken. 

Company XYZ will also want to avoid non-sampling errors. Non-sampling errors are errors that result during data collection and cause the data to differ from the true values. Non-sampling errors are caused by human error, such as a mistake made in the survey process.

If one group of consumers only watches five hours of video programming a week and is included in the survey, that decision is a non-sampling error. Asking questions that are biased is another type of error.

What Is Sampling Error vs. Sampling Bias?

In statistics, sampling means selecting the group that you will actually collect data from in your research.

Sampling bias is the expectation, which is known in advance, that a sample won’t be representative of the true population. For instance, if the sample ends up having proportionally more women or young people than the overall population.

Sampling errors are statistical errors that arise when a sample does not represent the whole population once analyses have been undertaken.

Why Is Sampling Error Important?

Being aware of the presence of sampling errors is important because it can be an indicator of the level of confidence that can be placed in the results. Sampling error is also important in the context of a discussion about how much research results can vary.

How Do You Find the Sampling Error?

In survey research, sampling errors occur because all samples are representative samples: a smaller group that stands in for the whole of your research population. It’s impossible to survey the entire group of people you’d like to reach.

It’s not usually possible to quantify the degree of sampling error in a study since it’s impossible to collect the relevant data from the entire population you are studying. This is why researchers collect representative samples (and representative samples are the reason why there are sampling errors).

What Is Sampling Error vs. Standard Error?

Sampling error is derived from the standard error (SE) by multiplying it by a Z-score value to produce a confidence interval.

The standard error is computed by dividing the standard deviation by the square root of the sample size.

The Bottom Line

Sampling error occurs when a sample drawn from a population deviates somewhat from that true population. Large sampling errors can lead to incorrect estimates or inferences made about the population based on statistical analysis of that sample.

In general, sampling errors can be placed into four categories: population-specific error, selection error, sample frame error, or non-response error. A population-specific error occurs when the researcher does not understand who they should survey. A selection error occurs when respondents self-select their participation in the study. (This results in only those that are interested in responding, which skews the results.) A sample frame error occurs when the wrong sub-population is used to select a sample. Finally, a non-response error occurs when potential respondents are not successfully contacted or refuse to respond.

Как мы уже знаем, репрезентативность — свойство выборочной совокупности представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности — мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности. Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной — 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями — генеральной, на которую направлен теоретический интерес социолога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, которая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.

Наряду с термином «ошибка репрезентативности» в отечественной литературе можно встретить другой — «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки — отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних генеральной и выборочной совокупностей, на основе этого определение ошибки выборки и ее уменьшение называется контролированием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. являются легко достижимой группой по сравнению с мужчинами и людьми «необразованными»35.

Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.

Ошибки выборки подразделяются на два типа — случайные и систематические. Случайная ошибка — это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.

Второй тип ошибок выборки — систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки — результат деятельности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов исследования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например:

  1. выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);
  2. налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает только 10%);
  3. отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:

  • нарушены методические и методологические правила проведения социологического исследования;
  • выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;
  • произошла замена требуемых единиц наблюдения другими, более доступными;
  • отмечен неполный охват выборочной совокупности (недополучение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точно предвидя их источники, лучше всего заранее — в самом начале исследования.

Вот некоторые способы избежать ошибок выборки:

  • каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;
  • отбор желательно производить из однородных совокупностей;
  • надо знать характеристики генеральной совокупности;
  • при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, харастеризующие всю генеральную совокупность. Если она составлена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вреда, нежели пользы.

Подобные ошибки могут произойти только с выборочной совокупностыо. Чтобы избежать или уменьшить вероятность ошибки, самый простой способ — увеличивать размеры выборки (в идеале до объема генеральной: когда обе совокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь — совершенствовать математические методы составления выборки. Они то и применяются на практике. Таков первый канал проникновения в социологию математики. Второй канал — математическая обработка данных.

Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выборки. Обычно они составляют несколько сотен, реже — тысячу респондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Численность выборочной совокупности зависит от двух факторов:

  1. стоимости сбора информации,
  2. стремления к определенной степени статистической достоверности результатов, которую надеется получить исследователь.

Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокупности в целом, тем более надежны и достоверны полученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструментария, труда анкетеров, полевых менеджеров и операторов по компьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпочитает именно его марку, а не сорт его конкурента, — 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно {гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».

Определение объема выборки зависит также от уровня доверительного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые связаны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки:
Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки.

Выборка. Типы выборок. Расчет ошибки выборки

Калькуляторы

Калькулятор расчета ошибки и размера выборки
Калькулятор расчета статистической значимости различий

Генеральная совокупность

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих
определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и
времени. Примеры генеральных совокупностей

  • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
  • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года) 
  • Юридические лица России (2,2 млн. на начало 2005 года)
  • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и
    т.д. 

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей
генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на
всю генеральную совокупность, выборка должна обладать свойством репрезентативности. 

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и
нерепрезентативной для разных генеральных совокупностей.
Пример:

  • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население
    Москвы. 
  • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
  • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать
москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках
соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от
ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой
всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера
выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной
вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об
ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих
результаты исследования в определенную сторону.
Пример:

  • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни.
    Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например,
    дома).
  • Проблема респондентов, отказывающихся отвечать на вопросы 
    анкеты (доля «отказников» в Москве, для разных опросов,
    колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот
или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.  

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные 

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов,
наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел. 
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата
рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер
генеральной совокупности, при этом – N=n*k 
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы
(страты). В каждой страте отбор осуществляется случайным или механическим образом. 
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются
случайным образом. Объекты внутри групп обследуются сплошняком. 

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности,
типичности, равного представительства и т.д.. 
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60
лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для
каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны
попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной
совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки
используются в маркетинговых исследованиях достаточно
часто. 
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег,
знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за
исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда
необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход,
респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения
и т.д.) 
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство
интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром –
активностью респондентов. 
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает
проблема выбора признака и определения его типичного значения. 

Курс лекций по теории статистики

Более подробную информацию по выборочным наблюдениям можно получить просмотрев видеокурс по теории статистики:
Выборочное наблюдение Способы формирование выборки
Специальные виды отбора

Калькулятор расчета ошибки и размера выборки (для простой случайной выборки)

Пояснения к полям:
Доверительная вероятность
Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по
выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность
Ошибка выборки (доверительный интервал)
Интервал, вычисленный по выборочным данным, который с заданной вероятностью (доверительной) накрывает неизвестное
истинное значение оцениваемого параметра распределения.
Доля признака
Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют,
необходимо использовать значение равное 50, при котором достигается максимальная ошибка.

Калькулятор расчета статистической значимости различий

Калькулятор позволяет проверить есть ли статистически значимая разница между долями признака, полученными из
независимых выборок. 
Например, если до начала рекламной кампании марку знали 55% респондентов, а по окончании – 60% — есть ли между этими
долями статистически значимая разница, или же эта разница укладывается в ошибку выборки? 
Примечание. Эта процедура может законно использоваться, только если обе выборки удовлетворяют следующему условию:
произведения n*p и n*(1-p), где n=размер выборки а p=доля признака, должны быть не меньше 5. 

Оставить свои комментарии по затронутой теме Вы можете на наших страницах в Facebook и Вконтакте.


При перепечатке материалов ссылка на маркетинговое агентство обязательна

FDF Group © 2023
Разработка сайта — Монохром

Понравилась статья? Поделить с друзьями:
  • Ошибки вызванные неправильным порядком слов
  • Ошибки второго рода при применении метода наблюдения
  • Ошибки возникающие при выборе профессии
  • Ошибки вставки access
  • Ошибки вызванные нарушением лексической сочетаемости слов содержат предложения