Ошибка выборки паниотто

Исследователь при
применении данного метода в некоторой
степени контролирует выборку (например,
публикуя анкету в журнале, он обращается
только к читателям этого журнала), но
решение о включении в выборку принимает
сам респондент. То есть, её размер заранее
часто не известен, а определяется
конкретным условием — активностью
респондентов. Значит, нельзя и заранее
определить структуру массива респондентов,
которые заполнят и вернут анкеты. Поэтому
этот метод не претендует на репрезентативность
выборки, а выводы исследования очень
часто распространяются только на
опрошенную совокупность.

Сферы применения
стихийной выборки:

  1. анкеты, публикуемые
    в газетах и журналах;

  2. почтовые опросы1;

  3. опросы покупателей
    в залах супермаркетов;

  4. опрос пассажиров
    на остановках и в общественном
    транспорте2.

2.3. Многоступенчатая и одноступенчатая выборки.

Выборка делится
на одноступенчатую и многоступенчатую
по количеству ступеней в отборе.
Одноступенчатая выборка предполагает,
что из генеральной совокупности сразу
осуществляется отбор респондентов для
опроса. Процедура же многоступенчатой
выборки включает несколько ступеней,
при этом на каждой из них единица отбора
меняется. «Различают единицы отбора
первой ступени (первичные единицы),
единицы отбора вторичной ступени
(вторичные единицы) и так далее. Объекты
самой нижней ступени, с которых ведется
непосредственный сбор информации,
называются единицами наблюдения»3.
Например, задача исследования – изучение
свободного времени студентов всей
страны.

Процедура будет
строиться следующим образом:

  1. отбор регионов;

  2. отбор города в
    них, где есть вузы;

  3. отбор учебных
    заведений, в которых будет проводиться
    исследование;

  4. выбор академических
    групп;

  5. отбор студентов.

Многоступенчатая
выборка осуществляется не в локальных
масштабах, а в региональных, общенациональных,
международных. Использовать одноступенчатую
выборку в таких масштабах нерационально,
да и очень дорого обойдётся такое
исследование. Многоступенчатая выборка
в этом плане экономична и упрощает
подход к выбору объекта.

Но нужно
учитывать, что чем больше ступеней в
выборке, тем больше будет ошибка
репрезентативности, возрастёт вероятность
погрешностей, что приведёт к искажению
результатов исследования4.

Рассмотрев
некоторые типы выборок, необходимо
также уяснить, что такое объем выборки
и какие бывают ошибки выборки и как их
избежать.

  1. Репрезентативность выборки. Объем и ошибка выборки.

В
формировании выборочной совокупности
важную роль играет определение ее объема
и обеспечение репрезентативности.

«Если тип выборки
говорит о том, как попадают люди в
выборочную совокупность, то объём
выборки сообщает о том, какое их
количество попало сюда»2.
То есть объем выборки – это количество
единиц попавших в выборочную совокупность.
И очень важно, чтобы выборка была
репрезентативной, то есть не искажала
представлений о генеральной совокупности
вцелом3.
«Требования репрезентативности выборки
означают, что по выделенным параметрам
(критериям) состав обследуемых должен
приближаться к соответствующим пропорциям
в генеральной совокупности»4.

Одна из ключевых
проблем, встающих, как правило, перед
социологом, решающим: доверять полученным
в ходе него данным или нет, это то, сколько
же человек должно быть опрошено для
того, чтобы получить действительно
репрезентативную информацию. К сожалению,
единой и четкой формулы, используя
которую можно было бы рассчитать
оптимальный объем выборочной совокупности,
не существует в природе. И объясняется
это весьма просто. Дело в том, что
определение объема выборочной совокупности
– это проблема не столько статистическая,
сколько содержательная.

Иными словами,
объем выборочной совокупности зависит
от множества факторов, основные из них
следующие:

  1. затраты на сбор
    информации, включая временные;

  2. стремление к
    определённой статистической достоверности
    результатов, которую надеется получить
    исследователь;

  3. ценность и новизна
    информации, получаемой в результате
    опроса5.

Объем
выборки обусловлен степенью однородности
или неоднородности, генеральной
совокупности, количеством характеризующих
ее признаков.
Однородной считается совокупность,
в которой контролируемый признак,
например уровень грамотности, распределён
равномерно, то есть не образует пустот
и сгущений, тогда опросив лишь несколько
человек, можно сделать вывод о том, что
большинство людей грамотны. Чем более
однородна генеральная совокупность,
тем меньше объем выборки. Например,
«допустим, мы осуществляем отбор из
генеральной совокупности в 2000 человек,
контролируя состав выборочной совокупности
по признаку «пол»»: 70% мужчин и 30% женщин.
Согласно теории вероятности, можно
предположить, что примерно среди каждых
десяти отбираемых респондентов встретятся
три женщины. Если мы хотим опросить по
крайней мерее 90 женщин, то исходя из
вышеупомянутого соотношения, нам
необходимо отобрать не менее 300 человек.
А теперь предположим, что в генеральной
совокупности 90% мужчин и 10% женщин. В
этом случае, чтобы в выборочную
совокупность попало 90 женщин, необходимо
отобрать уже не менее 900 человек»1.
Из примера видно, что объем выборки
зависит от разброса признака (дисперсии),
и его нужно вычислять по признаку,
дисперсия значений которого наибольшая.

«Степень
однородности социального объекта
зависит, в сущности, от того, насколько
детально мы намерены его исследовать.
Практически любой, самый «элементарный»
объект оказывается чрезвычайно сложным.
Лишь в анализе мы представляем его как
относительно простой, выделяя те или
иные его свойства. Чем более основательным
и детальным будет анализ, чем больше
свойств данного объекта мы намерены
принять во внимание в их сочетании, а
не изолированно, тем больше должен быть
объем выборки»2.

Существуют, так
называемые «правила левой руки» для
определения размера выборки (таблица
1)»3:

Размер
выборки растёт

Размер
выборки уменьшается


при необходимости опубликовать данные
для отдельных подгрупп (размеры
подвыборок при этом суммируются, и
выборка в целом растёт пропорционально
числу подгрупп);


при исследовании организаций, институтов
и прочих «первичных единиц отбора»,
если сравнительно невелика величина
генеральной совокупности, из которой
производится отбор(например, совокупности
сотрудников рекламных агентств,
школьников, пациентов и т.п.);


при проведении общенациональных
обследований, когда велика генеральная
совокупность;


при проведении локальных и региональных
исследований;


если уже имеющаяся информация по
ключевым вопросам (например, о намерениях
избирателей голосовать за ту или иную
партию) явно недостаточна и степень
неопределённости значительна.


если уже существующая информация
относительно полна и всё ещё остающаяся
степень неопределенности незначительна.

В репрезентативной
выборке все элементы генеральной
совокупности представлены в той же
пропорции. Но как бы тщательно не
соблюдать этот принцип, случайные ошибки
все же будут. Мы имеем возможность
определять ошибку репрезентативности.
Ошибкой репрезентативности, как правило,
называют «расхождение между двумя
совокупностями – генеральной, на которую
направлен теоретический интерес
социолога и представление о свойствах
которой он хочет получить в конечном
итоге, и выборочной, на которую направлен
практический интерес социолога, которая
выступает одновременно как объект
обследования и средство получить
информацию о генеральной совокупности»1.
Важно учитывать, что при помощи выборочного
метода никогда нельзя получить абсолютно
точную оценку наблюдаемого признака,
всегда существует вероятность ошибки,
но, если вероятность ошибки мала, то она
скорее всего не произойдет. В отечественной
литературе наряду с термином «ошибка
репрезентативности» встречается и
другой – «ошибка выборки». Обычно они
используются как синонимы, но понятие
«ошибка выборки» количественно более
точное, чем «ошибка репрезентативности».
Ошибка выборки – это «отклонение средних
характеристик выборочной совокупности
от средних характеристик генеральной
совокупности. На практике она определяется
путём сравнения известных характеристик
генеральной совокупности с выборочными
средними».2

Репрезентативность
выборки определяется двумя компонентами:
систематическими и случайными ошибками.
Случайные ошибки связаны «со статистическими
погрешностями (зависят от динамики
исследуемых признаков) и непредвиденными
нарушениями процедуры сбора информации
(процедурные ошибки, допущенные при
регистрации признаков)»3.
Случайные ошибки уменьшаются с увеличением
объема выборочной совокупности. Случайную
ошибку можно измерить методами
математической статистики, если при
формировании выборочной совокупности
соблюдался принцип случайности,
обеспечивающийся строго определенными
правилами, которые составляют метод
формирования выборочной совокупности,
и устранить.

На практике
принцип случайности соблюсти очень
сложно, а иногда просто невозможно, что
приводит к появлению систематической
ошибки, которые возникают «из-за неполной
объективности выборки генеральной
совокупности (недостаток информации о
генеральной совокупности, отбор наиболее
«удобных» для исследования элементов
генеральной совокупности), а так же
из-за несоответствия выборки целям и
задачам исследования»1.
Иногда такие ошибки называют ошибками
смещения. Они возникают при различных
телевизионных опросах, когда телеведущий
предлагает телезрителям позвонить по
определённым номерам телефонов, послать
смс-сообщение и высказать своё мнение
по какой-то проблеме. Естественно мы не
можем утверждать что эти люди отражают
мнение всего населения страны, и даже
телеаудитории. Вероятнее всего в таких
опросах участвуют более образованные
и активные люди, чем вся генеральная
совокупность, поэтому любой телевизионный
опрос содержит в себе систематическое
искажение и носит поверхностный характер.

Но систематические
ошибки возникают и в ходе корректно
организованного опроса. Например, на
улице на вопросы интервьюера отвечают
только те, кто никуда не спешит. Искажения
можно избежать, если соблюдать принципы
случайного отбора и опрашивать, к
примеру, каждого десятого прохожего2.

Причины
возникновения систематических ошибок:

  1. «в ходе исследования
    была не правильно составлена основа
    выборки (использовались устаревшие,
    неполные данные либо отсутствовала
    статистика по некоторым важным для
    формирования выборки признакам),

  2. неудачно выбран
    способ отбора единиц наблюдения,

  3. часть респондентов
    по разным причинам «выпала» из опроса
    (отсутствовала, отказалась отвечать)
    и так далее»3.

При помощи
математических средств такие ошибки
устранить невозможно, поэтому необходимо
осуществить логический анализ причин
появления систематических ошибок и
разработать меры, которые смогли бы их
устранить. «Величину ошибок смещения
определить при помощи математических
формул практически не возможно, поэтому
они автоматически переходят на результаты
и выводы исследования. Ошибки смещения
бывают обычно следствием:

  • неверных исходных
    статистических данных о параметрах
    контрольных признаков генеральной
    совокупности;

  • слишком малого
    (статистически не значимого) объёма
    выборочной совокупности;

  • неверного
    применения способа отбора единиц
    анализа (например, отбор из неверно
    составленного списка, неудачный выбор
    места и времени проведения опроса)»1.

Существуют
определённые пределы ошибки выборки,
которые зависят от цели исследования.
В экономических и демографических
прогнозах, например при переписи
населения, требуется повышенная
надёжность и точность. Для таких прогнозов
существенные ошибки оборачиваются
миллионными потерями материальных
ресурсов и просчетами в прогнозах и
планировании. Но чаще поводятся
социологические исследования для
уяснения общих тенденций, общей
ориентировки в социальной сфере не
требующие стопроцентной надёжности.
Существует приблизительная оценка на
надёжность результатов исследования:
«повышенная надёжность допускает ошибку
выборки до 3%. Обыкновенная – до 3-10%,
приближенная – то 10 до 20%, ориентировочная
– от 20 до 40%, а прикидочная – более 40%»2.

Таким образом,
существует несколько способов, чтобы
избежать ошибки:

  • каждый элемент
    генеральной совокупности должен иметь
    одинаковую вероятность попасть в
    выборочную совокупность;

  • генеральная
    совокупность должна быть желательно
    однородной;

  • необходимо иметь
    сведения о структуре генеральной
    совокупности и её характерные черты;

  • при составлении
    выборочной совокупности заранее учесть
    случайные и систематические ошибки.

«В.И. Паниотто
приводит следующие расчёты репрезентативной
выборки с допущением 5-процентной ошибки
(здесь имеются ввиду систематические
ошибки) (таблица 2)»3:

Размеры выборки
для различных генеральных совокупностей

Объём
генеральной совокупности

500

1000

2000

3000

4000

5000

10000

100000

Объем
выборки

222

286

333

350

360

370

385

458

Например,
если опросив 380 человек в поселении, где
общая численность платёжеспособного
населения 10 тысяч человек, мы выявили
что 36% опрошенных покупателей, предпочитают
отечественную продукцию, то с 95-процентной
степенью вероятности мы можем утверждать,
что отечественную продукцию постоянно
покупают 46±5% (то есть от 41 до 51%) жителей
этого поселения.

«Можно было
также воспользоваться расчётами
института Гэллапа для оценки соотношения
размеров выборки и ошибки выборки
(таблица 3)»1:

Размер
выборки

Интервал
доверия, %

4000

±2

1500

±3

1000

±4

600

±5

400

±6

200

±8

100

±11

Многие
обстоятельства усложняют проблему
расчёта выборки и нередко могут привести
к тому, что формально-статистически
репрезентативная

выборка окажется
качественно непредставительной»2.

Качество выборки
оценивают по двум показателям:
репрезентативность и надежность. О
репрезентативности уже говорилось
выше. А чтобы создать надежную выборку
необходимо правильно построить ее
основу. Для этого соблюдаются следующие
требования:

  1. Полнота выборки,
    которая требует наличия всех элементов
    генеральной совокупности в основе
    выборки. Если в выборку не включены
    многие единицы наблюдения, тем более,
    несущие в себе существенные особенности
    и характеристики объекта, то результаты
    исследования будут неполными и
    однобокими.

  2. Отсутствие
    дублирования, которое подразумевает
    недопустимость повторного включения
    в выборку одной и той же единицы
    наблюдения (например, ученик перешел
    учиться в другую школу, его включили в
    новый список, не вычеркнув при этом из
    старого, таким образом, он дважды попал
    в выборку).

  3. Точность информации
    выборки, предполагающая исключение
    несуществующих единиц наблюдения из
    основы выборки. Например, в избирательных
    списках, которые готовятся для очередных
    выборов депутатов различного уровня,
    нередко остаются умершие люди или
    жильцы снесенных домов.

  4. Адекватность,
    которая означает, что основа составленной
    выборки должна соотноситься с решением
    поставленных в исследовании задач.
    Например, полный список всех учащихся
    школы — хорошая основа для того, чтобы
    сформировать выборку при изучении
    проблемы общей успеваемости. Но если
    нас интересует отношение старшеклассников
    к основным учебным дисциплинам, то этот
    список может быть использован только
    для формирования новой основы выборки
    — списка старшеклассников.

  5. Удобство работы
    с основой выборки, при котором необходимо
    четко пронумеровать все элементы,
    которые в нее входят, а составленные
    списки централизованно хранить1.

«Существует два
основных подхода к обоснованию
репрезентативности выборки:

  1. При статистическом
    подходе репрезентативность обеспечивается
    специальными вероятностными методами
    извлечения выборки. Для обобщения
    результатов исследования на генеральную
    совокупность применяются строгие
    индуктивные процедуры статистического
    вывода, оценивается ошибка выборки с
    заданной вероятностью.

  2. Внестатистическое
    обоснование репрезентативности
    предполагает теоретическое доказательство
    того, что выборка достаточно хорошо
    представляет генеральную совокупность.
    При использовании этого подхода
    статистическое оценивание ошибок
    выборки не производится»2.

На первый взгляд,
кажется, что обеспечить репрезентативность
выборки на практике просто невозможно,
но на самом деле всё зависит от программных
целей и задач исследования.

Если мы проводим
обследование большой общественной
значимости, по завершению которого
нужно будет сделать выводы обо всей
генеральной совокупности, то необходимо
чётко следовать всем требования
репрезентативной выборочной процедуры,
так как ошибки в таких исследованиях
недопустимы.

Если перед нами
стоят более скромные задачи и уровень
надежности выводов можно смело понизить,
то необходимо следовать всем требованиям
по качественному представительству
выборочной совокупности. Если мы решим
подчёркивать статистическую надёжность
данных, то введём в заблуждение тех
людей, кто привык верить математическим
расчётам. Нельзя забывать, что та
информация, которую мы получаем путём
опросов и других способов, лишь условно
переводится в количественные показатели.
И не редкость когда количественные
показатели только приблизительно
отражают существо социальных процессов.
«Поэтому усилия, направленные на
строгость статистического обоснования
результатов, приобретают смысл только
при условии серьёзного качественного
анализа проблемы, содержательного её
изучения»1.

Необходимо
помнить, что социолог должен сосредотачивать
своё внимание именно на существе
социальных проблем, привлекать к работе
других специалистов, практиков и
теоретиков, внимательно изучать
литературу в области экономики,
психологии, социологии о предмете
исследования. И для решения статистических
задач, по поводу типа и объема выборки,
он сначала должен чётко сформулировать
конкретные вопросы, которые необходимо
решить, а уже потом обращаться к
соответствующим расчётам различных
статистик2.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Как мы уже знаем, репрезентативность — свойство выборочной совокупности представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности — мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности. Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной — 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями — генеральной, на которую направлен теоретический интерес социолога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, которая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.

Наряду с термином «ошибка репрезентативности» в отечественной литературе можно встретить другой — «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки — отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних генеральной и выборочной совокупностей, на основе этого определение ошибки выборки и ее уменьшение называется контролированием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. являются легко достижимой группой по сравнению с мужчинами и людьми «необразованными»35.

Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.

Ошибки выборки подразделяются на два типа — случайные и систематические. Случайная ошибка — это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.

Второй тип ошибок выборки — систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки — результат деятельности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов исследования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например:

  1. выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);
  2. налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает только 10%);
  3. отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:

  • нарушены методические и методологические правила проведения социологического исследования;
  • выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;
  • произошла замена требуемых единиц наблюдения другими, более доступными;
  • отмечен неполный охват выборочной совокупности (недополучение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точно предвидя их источники, лучше всего заранее — в самом начале исследования.

Вот некоторые способы избежать ошибок выборки:

  • каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;
  • отбор желательно производить из однородных совокупностей;
  • надо знать характеристики генеральной совокупности;
  • при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, харастеризующие всю генеральную совокупность. Если она составлена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вреда, нежели пользы.

Подобные ошибки могут произойти только с выборочной совокупностыо. Чтобы избежать или уменьшить вероятность ошибки, самый простой способ — увеличивать размеры выборки (в идеале до объема генеральной: когда обе совокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь — совершенствовать математические методы составления выборки. Они то и применяются на практике. Таков первый канал проникновения в социологию математики. Второй канал — математическая обработка данных.

Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выборки. Обычно они составляют несколько сотен, реже — тысячу респондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Численность выборочной совокупности зависит от двух факторов:

  1. стоимости сбора информации,
  2. стремления к определенной степени статистической достоверности результатов, которую надеется получить исследователь.

Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокупности в целом, тем более надежны и достоверны полученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструментария, труда анкетеров, полевых менеджеров и операторов по компьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпочитает именно его марку, а не сорт его конкурента, — 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно {гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».

Определение объема выборки зависит также от уровня доверительного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые связаны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки:
Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки.

Ядгаров М.Я.

НИИ Общей реаниматологии ФНКЦ РР

Берикашвили Л.Б.

НИИ Общей реаниматологии ФНКЦ РР

Каданцева К.К.

НИИ Общей реаниматологии ФНКЦ РР;
ГБУЗ «Московский клинический научный центр им. А.С. Логинова» Департамента здравоохранения Москвы

Определение объема выборки

Авторы:

Лихванцев В.В., Ядгаров М.Я., Берикашвили Л.Б., Каданцева К.К., Кузовлев А.Н.

Как цитировать:

Лихванцев В.В., Ядгаров М.Я., Берикашвили Л.Б., Каданцева К.К., Кузовлев А.Н. Определение объема выборки. Анестезиология и реаниматология.
2020;(6):77‑86.
Likhvantsev VV, Yadgarov MYa, Berikashvili LB, Kadantseva KK, Kuzovlev AN. Sample size estimation. Russian Journal of Anesthesiology and Reanimatology. 2020;(6):77‑86. (In Russ.)
https://doi.org/10.17116/anaesthesiology202006177

Данная статья открывает цикл публикаций, посвященных общим проблемам выбора и практического применения методов статистического анализа в клинических исследованиях. Мнения о ценности такого (статистического) подхода к оценке результатов исследования колеблются в диапазоне от «отсутствие грамотного статистического анализа приводит к утрате научной ценности исследования в целом» до «статистика — это некие «фантики», которыми принято декорировать исследование для пущей привлекательности и наукообразия». Последнее утверждение верно в той мере, в какой манипуляция статистикой или добросовестное заблуждение при выборе метода действительно могут изменить результат исследования, иногда на прямо противоположный. Однако необходимо отдавать себе отчет в том, что это проблема не статистики, а добросовестности и (или) полноты знания проблемы со стороны исследователя.

В эпоху доказательной медицины, в которую мы, хорошо ли, плохо ли, проживаем, статистический анализ, наряду с эпидемиологическим подходом к проведению исследования, стал обязательным элементом любой клинической работы, претендующей на звание научной. Раз так, а это именно так, то знание (в прагматически необходимом объеме!) статистики становится неотъемлемым элементом подготовки каждого научного сотрудника и обязательным квалификационным признаком состоявшегося специалиста. Однако на практике дела обстоят не настолько хорошо.

Последнее, к сожалению, становится все более и более заметно для авторов настоящей публикации, которые на протяжении многих лет являются рецензентами ряда ведущих отечественных журналов анестезиолого-реаниматологической тематики. Растущее количество работ с досадными, иногда нелепыми ошибками, допущенными по незнанию или недоразумению, заставляет каждый раз вновь обращаться к вопросам планирования исследования вообще и правилам проведения статистического анализа в частности.

Ряд ошибок, допущенных на этапе планирования, как мины замедленного действия, «срабатывают» в тот момент, когда менять что-либо уже поздно. Уже рекрутировано достаточное количество пациентов, и вдруг становится очевидно, что необходимо было мониторировать еще и «этот» показатель, без которого исследование «рассыпается», становится малоинформативным и бездоказательным. Рано или поздно авторы оказываются перед дилеммой: прервать исследование и начать все заново (жалко: столько сил и средств уже потрачено!) или продолжить, отдавая себе отчет в том, что цель достигнута быть не может, а единственное, что остается — это рассчитывать на получение некоего суррогата сомнительного качества. Именно поэтому крайне необходимым является проведение тщательного анализа предстоящей работы на этапе планирования, определение цели и задач, формулировка первичной, вторичной и т.д. конечных точек, адекватных поставленной цели; подбор методов не из арсенала того, «что у нас есть», а в соответствии с тем, «что необходимо, чтобы ответить на главный вопрос исследования». Жесткое соблюдение протокола и наличие CRF (Case Report Form — форма наблюдения за пациентом) являются абсолютными признаками качественного планирования. Все это в комплексе позволяет определить метод статистического анализа не «после», а еще «до» начала исследования, хотя некоторые коррективы, по-видимому, неизбежны (например, сообразно различному характеру распределения данных).

Маленькая иллюстрация вышесказанного. Допустим, вы собираетесь исследовать эффективность и безопасность разработанного Вами метода анестезии. Сделать это Вы планируете на основе анализа интраоперационных изменений уровня артериального давления (АД) и динамики активности ряда ферментов, обычно используемых для предварительной оценки функции некоторых органов и систем (аспартатаминотрансферазы — АсАТ, аланинаминотрансферазы — АлАТ, лактатдегидрогеназы — ЛДГ и т.д.). Вы справедливо полагаете, что для изучения летальности или частоты встречаемости жизнеугрожающих осложнений понадобится многосотенная, а то и многотысячная выборка, что нереально в рамках вашего учреждения, на что уйдут многие годы, и к окончанию работы либо «осел сдохнет», либо… далее по известной притче.

В итоге Вы получаете какой-то статистически значимый результат, например, тот, что уровень АД на неких, выбранных Вами, дискретных точках оказался несколько выше в контрольной группе, а значение некоторых ферментов — ниже. Радостно потирая руки, Вы пишете, что разработали более совершенный метод анестезии. Вся беда заключается в том, что полученный Вами результат говорит лишь о том, что наблюдается некоторое влияние метода на уровень АД в определенных фиксированных точках (и еще стоит подумать, положительное ли?), и уменьшается активность некоторых ферментов, что может указывать на меньший риск развития органной недостаточности, не более того. Утверждать, что предложенный Вами метод эффективнее и безопаснее существующих, без изучения частоты осложнений, летальности, времени пребывания в палате интенсивной терапии и других клинических исходов — невозможно.

Означает ли это, что проделанная Вами работа бессмысленна? Вовсе нет. Вы показали хотя бы то, что предложенный метод интересен, и следует подумать о его дальнейшем изучении. Можно ли рекомендовать предложенный Вами метод для широкого клинического применения? Увы, нет — недостаточно оснований. Таким образом, если Вы сформулировали цель исследования как «изучение эффективности и безопасности…», то Вы ее не достигли. И не могли достичь, так как выбрали методы, не отвечающие поставленной цели.

Авторы настоящей статьи осознают, насколько предложенный пример условен, ограничен и не детализирован, хотя и типичен. Тем не менее представляется, что он позволяет указать на один из многих «подводных камней», которые ждут исследователя на этапе планирования работы. В этой связи многие ученые обоснованно полагают, что время и усилия, затраченные на планирование, должны быть сопоставимы со временем и усилиями при выполнении работы. Только такой подход если и не гарантирует качество исследования, то определенно создает к тому серьезные предпосылки.

Первая, но далеко не единственная, проблема, которую необходимо решить до начала исследования — определение размера выборки. В отечественной и зарубежной литературе описано множество методик определения оптимального объема выборки, однако отсутствует четко установленная единая методология их применения.

Цель данной статьи — попытка предоставить неискушенному читателю общие сведения и один из возможных алгоритмов действия при определении размера выборки в ходе организации клинического исследования.

Варианты ошибок и их последствия

Ошибка в определении размера выборки одинаково нежелательна как в меньшую, так и в большую сторону.

При выборке меньшего объема мы с большей долей вероятности можем столкнуться с ошибками первого и второго родов. Для понимания сути таких ошибок нам необходимо ввести понятие нулевой гипотезы. Нулевая гипотеза — принимаемое по умолчанию предположение о том, что между двумя явлениями не существует никакой связи. В действительности нулевая гипотеза похожа на презумпцию невиновности. Мы всегда изначально считаем, что экспериментальная стратегия никак не может повлиять на исходы группы (то есть эффективность экспериментальной стратегии равна эффективности плацебо или отсутствию вмешательства, что зависит от дизайна исследования). Теперь вернемся к возможным ошибкам. Ошибкой первого рода называется отказ от правильной нулевой гипотезы (например, мы установили, что препарат эффективен, хотя в действительности его эффект такой же, как у плацебо). Ошибкой второго рода называется принятие неправильной нулевой гипотезы (например, мы установили, что препарат неэффективен, хотя в действительности он оказывает значительный положительный эффект).

При выборке большего объема (по сравнению с необходимым) большее количество больных будет подвергнуто неоправданному риску при испытании нового препарата или методики. А это недопустимо в соответствии со стандартами GCP (Good Clinical Practice) [1]. Кроме того, в случае избыточно большой выборки возможно обнаружение несуществующих в генеральной совокупности взаимосвязей, что вновь является ошибкой первого рода [2].

Важность определения объема выборки можно проиллюстрировать на следующем «доведенном до абсурда» примере. Скажем, Вы запланировали исследование, при котором в экспериментальной и контрольной группах по одному пациенту. Пациент контрольной группы получает плацебо, в то время как пациент экспериментальной группы получает препарат, об эффективности которого мы ничего не знаем. Если мы зададимся целью проанализировать летальность в таком исследовании, то обнаружим, что возможны 4 варианта развития событий.

Представим, что пациент контрольной группы умирает, а пациент экспериментальной группы выздоравливает. Вы даете абсолютно обоснованное заключение, что «все пациенты контрольной группы умерли, а все пациенты, которым применен тестируемый препарат, поправились, следовательно, методика эффективна». Интересно не то, что Вы с большой долей вероятности выдали ошибочное заключение, а то, что Вы, возможно, и правы. Дело в том, что объем выборки, в данном случае, не позволяет сделать никакого заключения вовсе!

Теперь представим, что оба больных поправились или оба погибли. Следуя простой логике, должно появиться заключение об отсутствии положительного эффекта у тестируемого препарата. Здесь Вы также обоснованно можете заключить, что препарат не отличается от плацебо. Но вся проблема снова в том, что объем выборки не позволяет сделать никакого заключения.

Вариант «пациент контрольной группы выжил, пациент экспериментальной группы погиб» приведет к рекомендации не использовать препарат (запрет) ввиду безусловного вреда здоровью. Но мы ведь с Вами понимаем, что ни о какой достоверности подобного заключения речи быть не может.

Остается удивительным, насколько люди не готовы допустить вероятность подобных ошибок при размере выборки в 15—20—30 человек. Мало того, иногда 100—200 и более пациентов недостаточно для обоснованного заключения. Очень многое, как будет показано далее, зависит от выбора первичной конечной точки, гетерогенности групп, возможных bias (перевод с английского — смещение в исходах, связанное с влиянием субъективного фактора) и т.д.

Пренебрегая предварительным расчетом размера выборки, авторы никогда не могут быть уверены в статистической значимости полученного результата [3]. Однако некоторые обзоры наглядно демонстрируют, что далеко не все исследователи понимают важность обозначенной проблемы [4, 5].

Определение объема выборки

Исследователь, ставящий перед собой цель определить размер выборки планируемого исследования, должен свободно оперировать следующими понятиями:

— Статистическая мощность (1-β), под которой понимают вероятность отклонить неверную нулевую гипотезу. Чем выше мощность статистического теста, тем меньше вероятность совершить ошибку второго рода. При планировании исследования желаемая мощность, как правило, принимается равной 0,8—0,9.

— Уровень статистической значимости (α) — вероятность ошибки первого рода — допускаемая исследователем вероятность ошибочного отклонения верной нулевой гипотезы (гипотезы об отсутствии различия между группами, об отсутствии взаимосвязи признаков и т.д.). Это постоянная величина, которая произвольно принимается автором за допустимую границу значимости полученных результатов. Именно с этой величиной будет производиться сравнение полученных данных. Как правило, за величину уровня значимости принимаются значения 0,05; 0,01 или 0,001.

p-уровень значимости — рассчитанная в ходе статистического анализа вероятность ошибочного отклонения некоторой предполагаемой гипотезы. Если рассчитанный p-уровень меньше принятого уровня значимости (α), то предполагаемая гипотеза (нулевая гипотеза) отклоняется. Чем меньше p-уровень значимости, тем более значимой является тестовая статистика.

— Генеральная совокупность — совокупность всех возможных объектов данного рода, для которых будут справедливы результаты проведенного исследования. Скажем, вы исследуете эффективность препарата для лечения ишемической болезни сердца (ИБС) у пожилых пациентов. В этом случае генеральной совокупностью будут все пациенты с установленным диагнозом ИБС старшей возрастной группы.

— Выборка — часть генеральной совокупности (например, используя вышеприведенный пример, — пожилые пациенты с ИБС), полученная путем отбора. По результатам анализа выборки делают выводы о всей популяции (генеральной совокупности), что правомерно в случае, если отбор был случайным. Ввиду того, что случайный отбор из популяции осуществить практически невозможно, необходимо стремиться к тому, чтобы выборка была репрезентативна по отношению ко всей совокупности (популяции).

— Гетерогенность в таком случае относится к выборке. Гетерогенный означает неоднородный по составу (в противоположность понятию «гомогенный»). Чем менее гетерогенна выборка, тем менее выраженным является «разброс» значений изучаемого показателя в исходе, тем меньшие отличия, обнаруженные в результате исследования, могут иметь статистическую значимость. Обратная сторона этого утверждения заключается в том, что достаточно гомогенную выборку можно получить только ценой ужесточения критериев включения/исключения. Следовательно, полученный результат можно будет экстраполировать на ограниченную группу пациентов. В качестве примера: вы можете ограничить выборку пациентов, в которой планируете изучать эффективность нового препарата для лечения ИБС, вводя следующие критерии включения: возраст от 65 до 80 лет; впервые выявленная ИБС, «не получавшие ранее кардиотропной терапии». Но тогда и обнаруженный эффект (в случае его выявления) можно будет распространить только на выделенную когорту больных. Проведенное исследование не позволит вам рекомендовать тестируемый препарат у пациентов с «ИБС в анамнезе» или у пациентов в возрасте 40—50 лет и т.д.

Определение размера выборки всегда является неким компромиссом между необходимой мощностью исследования и возможностью ее практической реализации с учетом имеющихся ресурсов.

Метод расчета размера выборки во многом зависит от объема знаний о характеристиках изучаемого параметра.

Еще раз вынуждены оговориться: все примеры, иллюстрирующие данную статью, в той или иной мере условны; необходимо с пониманием отнестись к тому, что строгое и детальное описание настоящего (а не выдуманного) клинического примера займет слишком много места и, скорее всего, отвлечет от предмета обсуждения настоящей статьи.

Начнем с самого неприятного случая: нам ничего не известно ни о генеральной совокупности, ни о параметре, который мы собираемся изучать. Например, мы изобрели новый метод анестезии, который не имеет даже близкого аналога (изобретение эфирного наркоза, открытие хлороформа, более близкий пример — ксенон) и работа будет проходить в клинике, проводящей уникальные операции в гериатрии. Первичной конечной точкой исследования выбрана 28-дневная летальность. Допустим, что никто и никогда не изучал летальность после выбранного типа операций, тем более в гериатрии, т.е. Вам неизвестны характеристики основного изучаемого параметра (среднее (медиана) и разброс данных) и невозможно предположить эффективность нашего метода по сравнению с известным (т.е. какая летальность будет при применении нашего метода относительно летальности при использовании эталонного метода анестезии). Это достаточно редкая ситуация, так как:

— если неизвестна летальность при точно такой же операции, как у нас, то, скорее всего, есть какой-то очень близкий аналог;

— если неизвестна летальность, предположим, у лиц «90 лет и старше», то известна у лиц «пожилого и старческого возраста» («60 лет и старше»);

— и даже такой, несомненно, новый анестетик, как ксенон, можно как-то, в первом приближении (при оценке анальгетической активности, например), соотнести с закисью азота.

Следует иметь в виду, что всегда предпочтительнее иметь хотя бы крайне ненадежный ориентир в размере выборки, чем не иметь никакого, так как при использовании рекомендованных в этой ситуации методов объем выборки, как правило, получается завышенным.

Но, допустим, мы имеем дело с истинно «пилотным» исследованием — никто и никогда ничего похожего не изучал. В таком случае планирование объема выборки возможно исключительно с использованием табличных методов (табл. 1—4), не требующих от исследователя информации о распределении изучаемых параметров. Выбор алгоритма из предложенных четырех будет определяться особенностями исследования и/или пожеланиями авторов [6]:

— методика К.А. Отдельновой [7] требует информации о желаемом уровне значимости и «уровне точности» исследования (см. табл. 1);

— метод В.И. Паниотто [8] требует от исследователей лишь информации об объеме генеральной совокупности (см. табл. 2);

— методика N. Fox [9] определяет объем выборки в зависимости от требуемой величины возможной ошибки (см. табл. 3);

— и наиболее «продвинутый» способ определения объема выборки, предложенный S. Das, K. Mitra, M. Mandal [10], принимает на входе информацию о предполагаемой величине эффекта, мощности и уровне значимости исследования (см. табл. 4).

Таблица 1. Определение требуемого размера выборки по методике К.А. Отдельновой [7]

Уровень значимости

Уровень точности

ориентировочное знакомство

исследование средней точности

исследование повышенной точности

0,05

44

100

400

0,01

100

225

900

Примечание. Уровень значимости: безразмерная величина, указан размер выборки как абсолютное значение количества пациентов в группе.

Таблица 2. Определение требуемого размера выборки по методике В.И. Паниотто [8]

Объем генеральной совокупности (единиц)

500

1000

2000

3000

4000

5000

10000

100000

Объем выборки (единиц)

222

286

333

350

360

370

385

398

400

Таблица 3. Определение объема выборки по методике N. Fox [9]

Величина допускаемой ошибки, %

Объем выборки, единиц

10

88

5

350

3

971

2

2188

1

8750

Таблица 4. Способ определения объема выборки, предложенный S. Das, K. Mitra, M. Mandal [10]

Величина различий (между контрольной и основной группами)

Мощность (1-β)

Уровень значимости (α)

Размер выборки, единиц

0,2

80

0,5

586

0,2

80

0,1

773

0,2

90

0,5

746

0,4

80

0,5

146

0,4

80

0,1

193

0.4

90

0,5

186

0,6

80

0,5

65

0,6

80

0,1

86

0,6

90

0,5

83

Еще пример. Другая ситуация несколько лучше: операции, которые выполняются в клинике, не уникальны; летальность и ее разброс при эталонном методе анестезии известны, однако отсутствует информация о характеристиках распределения изучаемых количественных параметров, влияющих на летальность в генеральной совокупности, а предлагаемая методика действительно аналогов не имеет. В такой ситуации можно продолжать пользоваться «табличными» методами, но предпочтительнее все же взять на вооружение статистические формулы (Приложение: см. табл. 5, формулы 3—15). Последний подход позволит получить искомый показатель с большей точностью и, вероятно, использовать меньший объем выборки. Например, изучается послеоперационная летальность пациентов группы высокого риска (возраст 60 лет и старше, наличие хронических заболеваний) при применении нового метода анестезии. Необходимо определить объем выборки с принимаемым исследователем уровнем значимости 0,05 и предельно допустимой ошибкой 5%. Так как информация о распределении количественных параметров, влияющих на летальность, неизвестна, подходящей является формула 4 (см. Приложение, табл. 5). Допустим, что по данным литературы, 28-дневная летальность среди пациентов старшего возраста при применении стандартной анестезии составляет 9%, а исследователи предполагают, что предлагаемая ими методика позволит уменьшить обсуждаемый показатель в полтора раза (т.е. летальность может составить около 6%). Критическое значение нормального стандартного распределения при заданном уровне значимости α=0,05 принято равным 1,96. В соответствии с имеющимися условиями, для последующего сравнения летальности в контрольной и основной группах объем каждой выборки рассчитывается следующим образом:

Это означает, что для решения поставленной исследователем задачи достаточно сформировать выборку, включающую по 126 пациентов в основной и в контрольной группах.

Третий пример — вам известны все необходимые параметры: исходная летальность, характеристики распределения изучаемых параметров в генеральной совокупности; операции рутинные, кроме того, предлагаемый метод является близким аналогом другого, эффективность которого является секретом Полишинеля. Как и в предыдущем примере, изучается послеоперационная летальность у пациентов группы высокого риска (возраст 60 лет и старше, наличие хронических заболеваний) при применении нового метода анестезии, однако теперь исследователи имеют информацию практически обо всех влияющих на летальность факторах, распределение параметров соответствует нормальному закону, известен также объем генеральной совокупности (например, 1000 пациентов с равной вероятностью входят в группу риска в календарном году). Тогда в соответствии с формулой 17:

Как видим, в связи с появлением дополнительной информации необходимый объем выборки снизился со 126 до 112 пациентов.

Возможно, вы обратили внимание, что, в соответствии с формулой 17, при увеличении объема генеральной совокупности необходимый объем выборки также увеличивается. В этой связи бытует распространенное заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть объем выборки. Проще говоря, исследователь попадает в ловушку: с одной стороны, чем больше больных с искомой патологией (или операцией) проходит через стационар, тем быстрее можно набрать достаточное количество пациентов. С другой стороны, увеличение размера генеральной совокупности (количества больных с искомой патологией, проходящих лечение или оперируемых в клинике) влечет за собой необходимость увеличения размера выборки (количества больных, рекрутируемых в исследование). Ложный вывод: чем реже встречается в клинике какая-то патология или тип оперативного вмешательства, тем быстрее можно выполнить исследование — меньшая выборка будет признана достаточной. Однако эта закономерность (чем больше генеральная совокупность, тем больше должен быть объем выборки) справедлива лишь отчасти (а вывод и вовсе вводит в заблуждение), и то лишь в ситуации, когда объем выборки сопоставим с размером генеральной совокупности. Возникает дилемма: сколько должно продолжаться проспективное исследование, чтобы объем выборки был репрезентативен по отношению ко всей совокупности пациентов, но в то же время исследование не продолжалось бы бесконечно долго.

Иными словами, как определить ту точку, когда погоня за точностью перестает реально влиять на результат и становится, скорее всего, самоцелью.

В соответствии с исследованием В.И. Паниотто [8], с ростом объема выборки значение получаемой ошибки уменьшается все медленнее (см. рисунок). Так, при объеме выборки 400 человек предельная ошибка для доли встречаемости признака 50% составит ±5%, а при объеме 1000 человек — ±3%. То есть возникает ситуация, когда при определенном объеме выборки дальнейшее ее увеличение не дает значительного выигрыша в точности.

Зависимость ошибки выборки от ее объема при 95% доверительном уровне.

Иная ситуация возникает, если изучаемая когорта пациентов имеет низкую распространенность в популяции, а критерии формирования выборки достаточно жесткие (что ограничивает подходящий контингент пациентов). Тогда все отобранные в ходе проспективного исследования пациенты, составляющие генеральную совокупность, будут попадать в исследуемую выборку, т.е. они будут сопоставимы по размеру.

В нашем примере, в соответствии с рисунком, при уровне летальности 9% и объеме выборки 50 человек предельная ошибка будет составлять примерно 10%. Для клинических исследований это недопустимо низкий уровень точности. Увеличение выборки до 200 человек приведет к уменьшению предельной ошибки до 4%, а при объеме выборки 400 пациентов ошибка составит всего 3%. Исходя из требований к клиническим исследованиям точность, при которой ошибка составляет 4%, считается допустимой, поэтому размер выборки можно ограничить 200 больными. Увеличивать объем выборки в два раза, по-видимому, в таком случае нецелесообразно.

Таким образом, в похожих ситуациях исследователи могут планировать продолжительность проспективного исследования исходя из требуемого и допустимого уровня ошибки.

Следует принять во внимание, что для медицинских исследований допустимой ошибкой считается 5%, если же удается получить результат с точностью до 1%, то исследование можно признать крайне убедительным.

Однако даже самое тщательное планирование не позволяет получить размер выборки, гарантирующий получение статистически значимого результата. Два приема используются порознь или вместе:

— автоматическое увеличение размера выборки на 10—15% по отношению к расчетному (особенно популярно при одноцентровых исследованиях небольшой мощности);

— коррекция размера выборки после получения первых данных о показателях, необходимых для более точного математического анализа.

Чем менее точно определен размер выборки при планировании (что не всегда является дефектом работы составителя плана, но, как показано выше, может быть и следствием отсутствия необходимых данных), тем насущнее становится необходимость коррекции данного показателя после появления первичных, предварительных данных, характеризующих исследуемый показатель и его изменения в результате предпринятых воздействий. Как правило, проведение повторного, уточняющего расчета размера выборки планируется до начала исследования и проводится после набора 50—75% от первоначально определенного количества больных.

Некоторые дополнительные замечания относительно определения размера выборки

Принято использовать два подхода к структурированию выборки — вероятностный и детерминированный (стратифицированный) [11]. Первый связан с формированием случайной выборки в процессе рандомизации (каждый элемент выборки включается с равной, ненулевой вероятностью); при использовании второго подхода элементы выборки отбираются субъективно в случае, если они отвечают целям исследования — выборка, основывается на неких частных предпочтениях или суждениях исследователя (например, ограничения по полу, возрасту, массе тела и т.д.).

Вероятностная выборка во многих случаях является предпочтительной, однако ее реализация в практической медицине может быть ограничена. Использование же детерминированного подхода в общем случае предполагает и использование иного математического аппарата или эмпирической методики [12].

Отдельную сложность представляет планирование объема выборки в условиях несоответствия распределения генеральной совокупности нормальному закону, а также при необходимости формирования различных по численности опытной и контрольной групп. Значительная вариабельность характеристик генеральной совокупности, а также многообразие вариантов клинических исследований предъявляют определенные требования к используемым методам планирования объема выборки.

Математический подход к определению размера выборки

Все математические методы определения объема выборки можно классифицировать на несколько групп:

— табличные методы, не требующие априорного представления об изучаемом факторе и о характеристиках генеральной совокупности (совокупности всех объектов или наблюдений, которые подлежат изучению). Описаны ранее;

— методы, требующие от исследователя некоторого представления об изучаемом признаке (количественный, порядковый (шкала), номинальный и т.д.);

— методы, требующие предварительной информации как о признаке, так и о генеральной совокупности (ее размере, нормальности распределения данных).

В медицине и анестезиологии-реаниматологии, в частности, авторы нередко сталкиваются с ситуацией, при которой невозможно оценить распределение исследуемого признака в генеральной совокупности и потому приходится использовать табличные методы при планировании объема выборки. Размер выборки может быть уточнен по мере получения предварительных результатов исследования, что сделает возможным использование математических формул. Это, в свою очередь, в некоторых случаях позволяет снизить риск необоснованного применения тестируемой методики у большего количества больных и уменьшить материальные затраты и нагрузку на медицинский персонал.

Экспертный подход к планированию объема выборки

Как отмечено ранее, в процессе набора данных возможен момент, когда большее количество данных (наблюдений) не обязательно приводит к большему количеству информации. А поскольку качественные исследования очень трудоемки, анализ значительной по размерам выборки может занять много времени, а зачастую и просто будет нецелесообразен [5]. Как правило, для непрерывной оценки размера выборки при проведении клинических исследований используется концепция насыщения выборки данными, позволяющая принимать обоснованные решения о необходимости прекращения процесса набора данных или о продолжении исследования.

Принципы определения насыщенности данных

В зарубежной литературе предложено несколько принципов, относящихся к концепции «насыщенности» в планировании исследования [13]. Согласно J. Francis и соавт., прежде всего необходимо учесть, какого размера будет выборка по завершении первого этапа исследования, чтобы определить основу для прогрессивных суждений о насыщенности данными и оценить наблюдаемую тенденцию, в том числе методами экстраполяции. Объем выборки будет зависеть от особенностей организации исследования, разнообразия выборки и способа ее формирования. Второй принцип заключается в том, что исследователи должны заранее знать продолжительность всего исследования (время набора данных). Важно также, чтобы методы насыщения данных были подробно описаны в тексте статьи, и коллеги имели возможность оценить доказательную базу исследования [13].

Концепция насыщения является в настоящее время спорной ввиду наличия более объективных методик оценки размера выборки [14]. В частности, указывается на тот факт, что для получения представления о размере выборки и мощности исследования приходится делать большое количество допущений. Информацию, необходимую для оценки объема выборки, получают либо из результатов собственных предыдущих исследований (пилотных исследований), либо из источников литературы. Возможны ситуации, при которых исследователь не имеет ни того, ни другого. Тем не менее необходимо заранее знать минимальную величину эффекта, которая в данном исследовании будет считаться достаточной, и на ее основании можно будет сделать предположение о мощности исследования.

Обсуждение

Определение размера выборки — важнейший этап планирования научной работы. Кроме того, это не просто формальный пункт, обязательный к исполнению по прихоти какого-то чиновника от науки. Это инструмент, позволяющий, с одной стороны, не делать лишнюю работу, с другой,— не сомневаться по окончании этой работы при получении отрицательного результата: «что это, реальное отсутствие эффекта или что «не хватило буквально каких-то …дцать больных»? Действительно, задача не так проста, как может показаться, но, соблюдая предложенный алгоритм, можно получить искомый результат с известной точностью [15—26].

Несколько полезных замечаний:

— при анализе пилотных исследований и сопоставимых работ других авторов необходимо обратить внимание не только на схожесть дизайна, но и на факторы, которые послужили причиной разброса данных. К таким факторам можно отнести демографические сведения о пациентах (половозрастные характеристики, прогностические факторы и т.д.), методы сбора информации, погрешности инструментальных и лабораторных методов исследования и прочее;

— необходимо помнить и о том, что мощность исследования зависит не только и не столько от объема выборки, сколько от предполагаемой величины эффекта и разброса данных. Возможно определение объема выборки исходя из априорных представлений об анализируемых параметрах, однако эмпирический подход является субъективным и проигрывает при равных условиях математическому подходу;

— возможны ситуации, при которых исследователь в силу определенных обстоятельств (финансовых, этических, организационных) не способен увеличить или изменить численность групп. В такой ситуации необходимо учитывать, что размер выборки не является единственным фактором качества исследования. И по сей день подходы к анализу объема выборки расширяются. В частности, показано использование однофакторного дисперсионного анализа ANOVA для определения объема выборки [15].

Таким образом, грамотному исследователю доступен широкий функционал математических методов определения требуемого объема выборки, руководствуясь которым в совокупности с собственным опытом и эмпирической методикой можно оптимально спланировать исследование и получить статистически обоснованные выводы.

Заключение

На современном этапе развития науки отсутствует четко установленная, единая методология определения минимально необходимого объема выборки для клинических исследований. В данной работе представлены наиболее часто применяемые методы определения необходимого объема выборки, которые могут быть применены при планировании исследований. Результатом анализа стало формирование единого алгоритма, позволяющего выбрать наиболее подходящую методику определения искомого показателя.

Приложение

Методы, требующие информации о типе анализируемого признака. Эта группа методов определения объема выборки зависит от ряда факторов: вида признаков, связанности выборок, количества предполагаемых групп и подхода к их формированию — вероятностного или детерминированного (стратифицированного). Формулы для расчетов приведены в табл. 5 (формулы 3—15). Использование приведенных формул дает значительно меньшие объемы выборок по сравнению с методами, не требующими информации о характеристиках распределения и типе анализируемого фактора, однако в некоторых случаях это может привести к неоправданному занижению необходимого объема выборки [6].

Таблица 5. Выбор метода планирования объема выборки (математический подход)

Нет информации о признаке/информация неполная

Нет информации о генеральной совокупности

Есть информация о признаке.

Нет информации о генеральной совокупности

Есть информация о признаке

Есть информация о генеральной совокупности (распределение соответствует нормальному закону)

Есть информация о признаке.

Есть информация о генеральной совокупности (распределение не соответствует нормальному закону)

Две выборки: односторонние тесты

Две выборки: двусторонние тесты

Одна выборка (вероятностный подход)

Одна выборка (детерминированный подход)

Одна выборка (погрешность измерений)

Одна выборка (вероятностный подход)

Одна выборка (детерминированный подход)

Методика К.А. Отдельновой [6, 7]

Количественный признак [24]:

(3)

Количественный признак [25]: (7)

(8)

Количественный признак [26]: (11)

Количественный признак [26]: (13)

[20]

(15)

Количественный признак [26]: (16)

Количественный признак [26]:

(18)

Лог-нормальное распределение, Hale W. E. [22]:

(20)

Методика В.И. Паниотто [8]

Качественный признак [25]:

(4)

Качественный признак [25]:

(9) (10)

Оценка доли (частоты признака) [26]: (12)

Оценка доли (частоты признака) [26]: (14)

Номинальный/порядковый признак

[26]: (17)

Качественный признак [26]: (19)

Распределение Пуассона [21]:

(21)

Метод Монте-Карло [23]

Методика N. Fox [9] и S. Das, K. Mitra, M. Mandal [10]

Известна численность одной из групп [17]:

(5)

Примечание. * — Использовать в случае несвязанных выборок; для связанных выборок расчет обеих групп проводить по формулам 7 и 9;

n — рассчитанный объем выборки;

N — объем генеральной совокупности;

????2 — критическое значение критерия Стьюдента при соответствующем уровне значимости;

d2 — предельно допустимая ошибка (минимальная, клинически значимая величина различий, которую необходимо обнаружить, как правило — 5%);

???? — стандартное отклонение признака, который будет изучаться в исследовании (????2 — дисперсия);

???? — доля случаев, в которых встречается анализируемый признак;

Q — доля случаев, в которых не встречается анализируемый признак (100—????);

, — критические значения нормального стандартного распределения для заданных α и β;

α/2 — желаемый уровень значимости;

1-β — желаемая мощность; p — доля признака в группе;

σ(d^2 ) — средняя внутригрупповая дисперсия,

pqd — средняя внутригрупповая дисперсия;

X — среднее арифметическое изучаемого признака;

E — погрешность измерения прибора

Определение Х выборки [6]:

(1)

Сравнение долей (частот признаков) [24]: (6)

Определение выборки [16]:

(2)

Номограммы [6, 18, 19]

Возможны ситуации, при которых оценить некоторые характеристики признака (такие как среднее арифметическое, стандартное отклонение) определить невозможно по причине отсутствия пилотного исследования или сопоставимых исследований в литературе — в данном случае возможно определение параметров с использованием расчетных формул (см. табл. 5, формулы 1—2). Эти формулы требуют наличия экспертных навыков и опыта у исследователя для предварительного определения размаха вариабельности исследуемого признака. Расчет размаха признака основывается на предположении о том, что расстояние между максимальным и минимальным значениями признака приблизительно равно шести стандартным отклонениям, что вытекает из правила трех сигм, и отсюда возможно определение стандартного отклонения (см. табл. 5, формула 2). В частности, если распределение генеральной совокупности соответствует нормальному закону, ее размах приблизительно равен 6σ, а следовательно, стандартное отклонение приблизительно равно одной шестой диапазона [16].

Весьма распространенной является задача планирования объема для последующего сравнения медианного значения определенного параметра между выборками в случае, если распределение признака уже известно, а информация о всей генеральной совокупности еще не получена. Например, необходимо определить объем выборки при сравнении уровня С-реактивного белка (СРБ) в одной группе пациентов с разлитым фибринозно-гнойным перитонитом в 1-е сутки и через 7 суток. Различия считаются статистически значимыми при уровне p<0,05, предельно допустимая ошибка равна 5%. По результатам предварительного (пилотного) исследования известно, что стандартное отклонение σ в первой группе составило 11,5, во второй — 16,2, а разница средних значений уровня СРБ в группах (X1—X2) по модулю составила 2. Так как СРБ является количественным параметром, выборки зависимы (связанные), а объем генеральной совокупности неизвестен, подходящими являются формулы 3 и 7. Однако в связи с тем, что стандартные отклонения в двух выборках различны, воспользуемся формулой 4, так как она учитывает стандартные отклонения обеих выборок.

(4)

Отметим, что при уменьшении разницы X1—X2 (например, в пилотном исследовании ввиду неэффективной терапии уровень СРБ снизился менее чем на 1 единицу) объем выборки будет увеличиваться, что необходимо для выявления незначительных различий в уровне СРБ.

Ввиду финансовых, этических или иных соображений возможна ситуация, при которой требуется формирование различных по объему основной и контрольной групп [17]. Такое часто встречается в обсервационном исследовании или в рандомизированном контролируемом исследовании с неравной рандомизацией. Разработан математический аппарат, позволяющий оценить требуемую численность одной группы при известной фиксированной численности другой группы для формирования заключения о наличии/отсутствии статистически значимых различий между ними (см. табл. 5, формула 5).

Актуальной является задача определения объема выборки для дальнейшей оценки (сравнения) долей (частот встречаемости) признаков в одной или нескольких группах с использованием хи-квадрат критерия Пирсона — для этого случая также представлено несколько методик. Первая связана с использованием критических значений стандартного нормального распределения для оценки объема выборки (см. табл. 5, формулы 6, 12, 14). Вторая методика предполагает использование номограмм [18, 19]. Номограмма представляет собой диаграмму с двумя осями: осью стандартизованной разности и осью величины мощности; на пересечении приведенной прямой с необходимым уровнем значимости находится требуемый объем выборки. Расчет стандартизованной разности предполагает расчет отношения разности средних арифметических значений признака между группами к стандартному отклонению анализируемого признака, а уровень мощности в клинических исследованиях принимается, как правило, равным 0,8—0,9 [6]. В случае связанных выборок стандартизованная разность умножается на 2. В некоторых ситуациях может потребоваться расчет объема выборки с учетом прямой погрешности измерения прибора [20]. Тогда становится возможным заменить t-статистику Стьюдента на Z-оценку стандартного нормального распределения (см. табл. 5, формула 15).

Методы, требующие предварительной информации о виде признака и о генеральной совокупности. Наилучшая ситуация с точки зрения планирования объема выборки возникает при наличии информации о типе признака и о характеристиках распределения совокупности, при этом предпочтительно наличие нормально распределенных данных. В таком случае возможно использование статистических формул с учетом подхода к формированию выборки и использованием t-статистики (см. табл. 5, формулы 16—19). Этот математический аппарат широко описан в литературе, однако он неприменим к данным, распределение которых отлично от нормального [21]. Достаточно давно известен подход к планированию размера выборки для данных, распределение которых близко к лог-нормальному [22] (см. табл. 5, формула 20). По результатам исследования B. Cundill и N. Alexander, описанный выше подход к анализу лог-нормального распределения хорошо работал и для рассмотренных отрицательных биномиальных и гамма-распределений и превосходил по качеству методы, используемые при нормально распределенных данных [21]. Тем не менее он показал лишь незначительное преимущество для пуассоновского распределения, в связи с чем авторами предложен отдельных подход к расчету объема выборки для частного случая — Пуассоновского распределения данных (см. табл. 5, формула 21). В качестве альтернативного подхода к планированию объема выборки описано использование методов Монте-Карло, в частности, модели подтверждающего факторного анализа и модели роста [23]. В исследованиях данные генерируются из совокупности с гипотетическими значениями параметров, выбирается большое количество наблюдений и для каждого образца оценивается модель; значения параметров и стандартные ошибки усредняются по выборкам. Для определения объема выборки требуется соблюдение трех критериев. Первый критерий остановки алгоритма срабатывает в случае отклонения параметров и стандартных ошибок более 10% для любого параметра в модели. Второй критерий — стандартное смещение ошибки для параметра, для которого оценивается мощность, не превышает 5%. Третий критерий — оценка доверительных интервалов находится в интервале между 0,91 и 0,98. В случае, если эти три условия выполнены, размер выборки выбирается так, чтобы мощность была близка к 0,80. В целом такой подход может быть использован и при соответствии распределения совокупности нормальному закону.

Авторы заявляют об отсутствии конфликта интересов.

Данная статья открывает цикл публикаций, посвященных общим проблемам выбора и практического применения методов статистического анализа в клинических исследованиях. Мнения о ценности такого (статистического) подхода к оценке результатов исследования колеблются в диапазоне от «отсутствие грамотного статистического анализа приводит к утрате научной ценности исследования в целом» до «статистика — это некие «фантики», которыми принято декорировать исследование для пущей привлекательности и наукообразия». Последнее утверждение верно в той мере, в какой манипуляция статистикой или добросовестное заблуждение при выборе метода действительно могут изменить результат исследования, иногда на прямо противоположный. Однако необходимо отдавать себе отчет в том, что это проблема не статистики, а добросовестности и (или) полноты знания проблемы со стороны исследователя.

В эпоху доказательной медицины, в которую мы, хорошо ли, плохо ли, проживаем, статистический анализ, наряду с эпидемиологическим подходом к проведению исследования, стал обязательным элементом любой клинической работы, претендующей на звание научной. Раз так, а это именно так, то знание (в прагматически необходимом объеме!) статистики становится неотъемлемым элементом подготовки каждого научного сотрудника и обязательным квалификационным признаком состоявшегося специалиста. Однако на практике дела обстоят не настолько хорошо.

Последнее, к сожалению, становится все более и более заметно для авторов настоящей публикации, которые на протяжении многих лет являются рецензентами ряда ведущих отечественных журналов анестезиолого-реаниматологической тематики. Растущее количество работ с досадными, иногда нелепыми ошибками, допущенными по незнанию или недоразумению, заставляет каждый раз вновь обращаться к вопросам планирования исследования вообще и правилам проведения статистического анализа в частности.

Ряд ошибок, допущенных на этапе планирования, как мины замедленного действия, «срабатывают» в тот момент, когда менять что-либо уже поздно. Уже рекрутировано достаточное количество пациентов, и вдруг становится очевидно, что необходимо было мониторировать еще и «этот» показатель, без которого исследование «рассыпается», становится малоинформативным и бездоказательным. Рано или поздно авторы оказываются перед дилеммой: прервать исследование и начать все заново (жалко: столько сил и средств уже потрачено!) или продолжить, отдавая себе отчет в том, что цель достигнута быть не может, а единственное, что остается — это рассчитывать на получение некоего суррогата сомнительного качества. Именно поэтому крайне необходимым является проведение тщательного анализа предстоящей работы на этапе планирования, определение цели и задач, формулировка первичной, вторичной и т.д. конечных точек, адекватных поставленной цели; подбор методов не из арсенала того, «что у нас есть», а в соответствии с тем, «что необходимо, чтобы ответить на главный вопрос исследования». Жесткое соблюдение протокола и наличие CRF (Case Report Form — форма наблюдения за пациентом) являются абсолютными признаками качественного планирования. Все это в комплексе позволяет определить метод статистического анализа не «после», а еще «до» начала исследования, хотя некоторые коррективы, по-видимому, неизбежны (например, сообразно различному характеру распределения данных).

Маленькая иллюстрация вышесказанного. Допустим, вы собираетесь исследовать эффективность и безопасность разработанного Вами метода анестезии. Сделать это Вы планируете на основе анализа интраоперационных изменений уровня артериального давления (АД) и динамики активности ряда ферментов, обычно используемых для предварительной оценки функции некоторых органов и систем (аспартатаминотрансферазы — АсАТ, аланинаминотрансферазы — АлАТ, лактатдегидрогеназы — ЛДГ и т.д.). Вы справедливо полагаете, что для изучения летальности или частоты встречаемости жизнеугрожающих осложнений понадобится многосотенная, а то и многотысячная выборка, что нереально в рамках вашего учреждения, на что уйдут многие годы, и к окончанию работы либо «осел сдохнет», либо… далее по известной притче.

В итоге Вы получаете какой-то статистически значимый результат, например, тот, что уровень АД на неких, выбранных Вами, дискретных точках оказался несколько выше в контрольной группе, а значение некоторых ферментов — ниже. Радостно потирая руки, Вы пишете, что разработали более совершенный метод анестезии. Вся беда заключается в том, что полученный Вами результат говорит лишь о том, что наблюдается некоторое влияние метода на уровень АД в определенных фиксированных точках (и еще стоит подумать, положительное ли?), и уменьшается активность некоторых ферментов, что может указывать на меньший риск развития органной недостаточности, не более того. Утверждать, что предложенный Вами метод эффективнее и безопаснее существующих, без изучения частоты осложнений, летальности, времени пребывания в палате интенсивной терапии и других клинических исходов — невозможно.

Означает ли это, что проделанная Вами работа бессмысленна? Вовсе нет. Вы показали хотя бы то, что предложенный метод интересен, и следует подумать о его дальнейшем изучении. Можно ли рекомендовать предложенный Вами метод для широкого клинического применения? Увы, нет — недостаточно оснований. Таким образом, если Вы сформулировали цель исследования как «изучение эффективности и безопасности…», то Вы ее не достигли. И не могли достичь, так как выбрали методы, не отвечающие поставленной цели.

Авторы настоящей статьи осознают, насколько предложенный пример условен, ограничен и не детализирован, хотя и типичен. Тем не менее представляется, что он позволяет указать на один из многих «подводных камней», которые ждут исследователя на этапе планирования работы. В этой связи многие ученые обоснованно полагают, что время и усилия, затраченные на планирование, должны быть сопоставимы со временем и усилиями при выполнении работы. Только такой подход если и не гарантирует качество исследования, то определенно создает к тому серьезные предпосылки.

Первая, но далеко не единственная, проблема, которую необходимо решить до начала исследования — определение размера выборки. В отечественной и зарубежной литературе описано множество методик определения оптимального объема выборки, однако отсутствует четко установленная единая методология их применения.

Цель данной статьи — попытка предоставить неискушенному читателю общие сведения и один из возможных алгоритмов действия при определении размера выборки в ходе организации клинического исследования.

Варианты ошибок и их последствия

Ошибка в определении размера выборки одинаково нежелательна как в меньшую, так и в большую сторону.

При выборке меньшего объема мы с большей долей вероятности можем столкнуться с ошибками первого и второго родов. Для понимания сути таких ошибок нам необходимо ввести понятие нулевой гипотезы. Нулевая гипотеза — принимаемое по умолчанию предположение о том, что между двумя явлениями не существует никакой связи. В действительности нулевая гипотеза похожа на презумпцию невиновности. Мы всегда изначально считаем, что экспериментальная стратегия никак не может повлиять на исходы группы (то есть эффективность экспериментальной стратегии равна эффективности плацебо или отсутствию вмешательства, что зависит от дизайна исследования). Теперь вернемся к возможным ошибкам. Ошибкой первого рода называется отказ от правильной нулевой гипотезы (например, мы установили, что препарат эффективен, хотя в действительности его эффект такой же, как у плацебо). Ошибкой второго рода называется принятие неправильной нулевой гипотезы (например, мы установили, что препарат неэффективен, хотя в действительности он оказывает значительный положительный эффект).

При выборке большего объема (по сравнению с необходимым) большее количество больных будет подвергнуто неоправданному риску при испытании нового препарата или методики. А это недопустимо в соответствии со стандартами GCP (Good Clinical Practice) [1]. Кроме того, в случае избыточно большой выборки возможно обнаружение несуществующих в генеральной совокупности взаимосвязей, что вновь является ошибкой первого рода [2].

Важность определения объема выборки можно проиллюстрировать на следующем «доведенном до абсурда» примере. Скажем, Вы запланировали исследование, при котором в экспериментальной и контрольной группах по одному пациенту. Пациент контрольной группы получает плацебо, в то время как пациент экспериментальной группы получает препарат, об эффективности которого мы ничего не знаем. Если мы зададимся целью проанализировать летальность в таком исследовании, то обнаружим, что возможны 4 варианта развития событий.

Представим, что пациент контрольной группы умирает, а пациент экспериментальной группы выздоравливает. Вы даете абсолютно обоснованное заключение, что «все пациенты контрольной группы умерли, а все пациенты, которым применен тестируемый препарат, поправились, следовательно, методика эффективна». Интересно не то, что Вы с большой долей вероятности выдали ошибочное заключение, а то, что Вы, возможно, и правы. Дело в том, что объем выборки, в данном случае, не позволяет сделать никакого заключения вовсе!

Теперь представим, что оба больных поправились или оба погибли. Следуя простой логике, должно появиться заключение об отсутствии положительного эффекта у тестируемого препарата. Здесь Вы также обоснованно можете заключить, что препарат не отличается от плацебо. Но вся проблема снова в том, что объем выборки не позволяет сделать никакого заключения.

Вариант «пациент контрольной группы выжил, пациент экспериментальной группы погиб» приведет к рекомендации не использовать препарат (запрет) ввиду безусловного вреда здоровью. Но мы ведь с Вами понимаем, что ни о какой достоверности подобного заключения речи быть не может.

Остается удивительным, насколько люди не готовы допустить вероятность подобных ошибок при размере выборки в 15—20—30 человек. Мало того, иногда 100—200 и более пациентов недостаточно для обоснованного заключения. Очень многое, как будет показано далее, зависит от выбора первичной конечной точки, гетерогенности групп, возможных bias (перевод с английского — смещение в исходах, связанное с влиянием субъективного фактора) и т.д.

Пренебрегая предварительным расчетом размера выборки, авторы никогда не могут быть уверены в статистической значимости полученного результата [3]. Однако некоторые обзоры наглядно демонстрируют, что далеко не все исследователи понимают важность обозначенной проблемы [4, 5].

Определение объема выборки

Исследователь, ставящий перед собой цель определить размер выборки планируемого исследования, должен свободно оперировать следующими понятиями:

— Статистическая мощность (1-β), под которой понимают вероятность отклонить неверную нулевую гипотезу. Чем выше мощность статистического теста, тем меньше вероятность совершить ошибку второго рода. При планировании исследования желаемая мощность, как правило, принимается равной 0,8—0,9.

— Уровень статистической значимости (α) — вероятность ошибки первого рода — допускаемая исследователем вероятность ошибочного отклонения верной нулевой гипотезы (гипотезы об отсутствии различия между группами, об отсутствии взаимосвязи признаков и т.д.). Это постоянная величина, которая произвольно принимается автором за допустимую границу значимости полученных результатов. Именно с этой величиной будет производиться сравнение полученных данных. Как правило, за величину уровня значимости принимаются значения 0,05; 0,01 или 0,001.

p-уровень значимости — рассчитанная в ходе статистического анализа вероятность ошибочного отклонения некоторой предполагаемой гипотезы. Если рассчитанный p-уровень меньше принятого уровня значимости (α), то предполагаемая гипотеза (нулевая гипотеза) отклоняется. Чем меньше p-уровень значимости, тем более значимой является тестовая статистика.

— Генеральная совокупность — совокупность всех возможных объектов данного рода, для которых будут справедливы результаты проведенного исследования. Скажем, вы исследуете эффективность препарата для лечения ишемической болезни сердца (ИБС) у пожилых пациентов. В этом случае генеральной совокупностью будут все пациенты с установленным диагнозом ИБС старшей возрастной группы.

— Выборка — часть генеральной совокупности (например, используя вышеприведенный пример, — пожилые пациенты с ИБС), полученная путем отбора. По результатам анализа выборки делают выводы о всей популяции (генеральной совокупности), что правомерно в случае, если отбор был случайным. Ввиду того, что случайный отбор из популяции осуществить практически невозможно, необходимо стремиться к тому, чтобы выборка была репрезентативна по отношению ко всей совокупности (популяции).

— Гетерогенность в таком случае относится к выборке. Гетерогенный означает неоднородный по составу (в противоположность понятию «гомогенный»). Чем менее гетерогенна выборка, тем менее выраженным является «разброс» значений изучаемого показателя в исходе, тем меньшие отличия, обнаруженные в результате исследования, могут иметь статистическую значимость. Обратная сторона этого утверждения заключается в том, что достаточно гомогенную выборку можно получить только ценой ужесточения критериев включения/исключения. Следовательно, полученный результат можно будет экстраполировать на ограниченную группу пациентов. В качестве примера: вы можете ограничить выборку пациентов, в которой планируете изучать эффективность нового препарата для лечения ИБС, вводя следующие критерии включения: возраст от 65 до 80 лет; впервые выявленная ИБС, «не получавшие ранее кардиотропной терапии». Но тогда и обнаруженный эффект (в случае его выявления) можно будет распространить только на выделенную когорту больных. Проведенное исследование не позволит вам рекомендовать тестируемый препарат у пациентов с «ИБС в анамнезе» или у пациентов в возрасте 40—50 лет и т.д.

Определение размера выборки всегда является неким компромиссом между необходимой мощностью исследования и возможностью ее практической реализации с учетом имеющихся ресурсов.

Метод расчета размера выборки во многом зависит от объема знаний о характеристиках изучаемого параметра.

Еще раз вынуждены оговориться: все примеры, иллюстрирующие данную статью, в той или иной мере условны; необходимо с пониманием отнестись к тому, что строгое и детальное описание настоящего (а не выдуманного) клинического примера займет слишком много места и, скорее всего, отвлечет от предмета обсуждения настоящей статьи.

Начнем с самого неприятного случая: нам ничего не известно ни о генеральной совокупности, ни о параметре, который мы собираемся изучать. Например, мы изобрели новый метод анестезии, который не имеет даже близкого аналога (изобретение эфирного наркоза, открытие хлороформа, более близкий пример — ксенон) и работа будет проходить в клинике, проводящей уникальные операции в гериатрии. Первичной конечной точкой исследования выбрана 28-дневная летальность. Допустим, что никто и никогда не изучал летальность после выбранного типа операций, тем более в гериатрии, т.е. Вам неизвестны характеристики основного изучаемого параметра (среднее (медиана) и разброс данных) и невозможно предположить эффективность нашего метода по сравнению с известным (т.е. какая летальность будет при применении нашего метода относительно летальности при использовании эталонного метода анестезии). Это достаточно редкая ситуация, так как:

— если неизвестна летальность при точно такой же операции, как у нас, то, скорее всего, есть какой-то очень близкий аналог;

— если неизвестна летальность, предположим, у лиц «90 лет и старше», то известна у лиц «пожилого и старческого возраста» («60 лет и старше»);

— и даже такой, несомненно, новый анестетик, как ксенон, можно как-то, в первом приближении (при оценке анальгетической активности, например), соотнести с закисью азота.

Следует иметь в виду, что всегда предпочтительнее иметь хотя бы крайне ненадежный ориентир в размере выборки, чем не иметь никакого, так как при использовании рекомендованных в этой ситуации методов объем выборки, как правило, получается завышенным.

Но, допустим, мы имеем дело с истинно «пилотным» исследованием — никто и никогда ничего похожего не изучал. В таком случае планирование объема выборки возможно исключительно с использованием табличных методов (табл. 1—4), не требующих от исследователя информации о распределении изучаемых параметров. Выбор алгоритма из предложенных четырех будет определяться особенностями исследования и/или пожеланиями авторов [6]:

— методика К.А. Отдельновой [7] требует информации о желаемом уровне значимости и «уровне точности» исследования (см. табл. 1);

— метод В.И. Паниотто [8] требует от исследователей лишь информации об объеме генеральной совокупности (см. табл. 2);

— методика N. Fox [9] определяет объем выборки в зависимости от требуемой величины возможной ошибки (см. табл. 3);

— и наиболее «продвинутый» способ определения объема выборки, предложенный S. Das, K. Mitra, M. Mandal [10], принимает на входе информацию о предполагаемой величине эффекта, мощности и уровне значимости исследования (см. табл. 4).

Таблица 1. Определение требуемого размера выборки по методике К.А. Отдельновой [7]

Уровень значимости

Уровень точности

ориентировочное знакомство

исследование средней точности

исследование повышенной точности

0,05

44

100

400

0,01

100

225

900

Примечание. Уровень значимости: безразмерная величина, указан размер выборки как абсолютное значение количества пациентов в группе.

Таблица 2. Определение требуемого размера выборки по методике В.И. Паниотто [8]

Объем генеральной совокупности (единиц)

500

1000

2000

3000

4000

5000

10000

100000

Объем выборки (единиц)

222

286

333

350

360

370

385

398

400

Таблица 3. Определение объема выборки по методике N. Fox [9]

Величина допускаемой ошибки, %

Объем выборки, единиц

10

88

5

350

3

971

2

2188

1

8750

Таблица 4. Способ определения объема выборки, предложенный S. Das, K. Mitra, M. Mandal [10]

Величина различий (между контрольной и основной группами)

Мощность (1-β)

Уровень значимости (α)

Размер выборки, единиц

0,2

80

0,5

586

0,2

80

0,1

773

0,2

90

0,5

746

0,4

80

0,5

146

0,4

80

0,1

193

0.4

90

0,5

186

0,6

80

0,5

65

0,6

80

0,1

86

0,6

90

0,5

83

Еще пример. Другая ситуация несколько лучше: операции, которые выполняются в клинике, не уникальны; летальность и ее разброс при эталонном методе анестезии известны, однако отсутствует информация о характеристиках распределения изучаемых количественных параметров, влияющих на летальность в генеральной совокупности, а предлагаемая методика действительно аналогов не имеет. В такой ситуации можно продолжать пользоваться «табличными» методами, но предпочтительнее все же взять на вооружение статистические формулы (Приложение: см. табл. 5, формулы 3—15). Последний подход позволит получить искомый показатель с большей точностью и, вероятно, использовать меньший объем выборки. Например, изучается послеоперационная летальность пациентов группы высокого риска (возраст 60 лет и старше, наличие хронических заболеваний) при применении нового метода анестезии. Необходимо определить объем выборки с принимаемым исследователем уровнем значимости 0,05 и предельно допустимой ошибкой 5%. Так как информация о распределении количественных параметров, влияющих на летальность, неизвестна, подходящей является формула 4 (см. Приложение, табл. 5). Допустим, что по данным литературы, 28-дневная летальность среди пациентов старшего возраста при применении стандартной анестезии составляет 9%, а исследователи предполагают, что предлагаемая ими методика позволит уменьшить обсуждаемый показатель в полтора раза (т.е. летальность может составить около 6%). Критическое значение нормального стандартного распределения при заданном уровне значимости α=0,05 принято равным 1,96. В соответствии с имеющимися условиями, для последующего сравнения летальности в контрольной и основной группах объем каждой выборки рассчитывается следующим образом:

Это означает, что для решения поставленной исследователем задачи достаточно сформировать выборку, включающую по 126 пациентов в основной и в контрольной группах.

Третий пример — вам известны все необходимые параметры: исходная летальность, характеристики распределения изучаемых параметров в генеральной совокупности; операции рутинные, кроме того, предлагаемый метод является близким аналогом другого, эффективность которого является секретом Полишинеля. Как и в предыдущем примере, изучается послеоперационная летальность у пациентов группы высокого риска (возраст 60 лет и старше, наличие хронических заболеваний) при применении нового метода анестезии, однако теперь исследователи имеют информацию практически обо всех влияющих на летальность факторах, распределение параметров соответствует нормальному закону, известен также объем генеральной совокупности (например, 1000 пациентов с равной вероятностью входят в группу риска в календарном году). Тогда в соответствии с формулой 17:

Как видим, в связи с появлением дополнительной информации необходимый объем выборки снизился со 126 до 112 пациентов.

Возможно, вы обратили внимание, что, в соответствии с формулой 17, при увеличении объема генеральной совокупности необходимый объем выборки также увеличивается. В этой связи бытует распространенное заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть объем выборки. Проще говоря, исследователь попадает в ловушку: с одной стороны, чем больше больных с искомой патологией (или операцией) проходит через стационар, тем быстрее можно набрать достаточное количество пациентов. С другой стороны, увеличение размера генеральной совокупности (количества больных с искомой патологией, проходящих лечение или оперируемых в клинике) влечет за собой необходимость увеличения размера выборки (количества больных, рекрутируемых в исследование). Ложный вывод: чем реже встречается в клинике какая-то патология или тип оперативного вмешательства, тем быстрее можно выполнить исследование — меньшая выборка будет признана достаточной. Однако эта закономерность (чем больше генеральная совокупность, тем больше должен быть объем выборки) справедлива лишь отчасти (а вывод и вовсе вводит в заблуждение), и то лишь в ситуации, когда объем выборки сопоставим с размером генеральной совокупности. Возникает дилемма: сколько должно продолжаться проспективное исследование, чтобы объем выборки был репрезентативен по отношению ко всей совокупности пациентов, но в то же время исследование не продолжалось бы бесконечно долго.

Иными словами, как определить ту точку, когда погоня за точностью перестает реально влиять на результат и становится, скорее всего, самоцелью.

В соответствии с исследованием В.И. Паниотто [8], с ростом объема выборки значение получаемой ошибки уменьшается все медленнее (см. рисунок). Так, при объеме выборки 400 человек предельная ошибка для доли встречаемости признака 50% составит ±5%, а при объеме 1000 человек — ±3%. То есть возникает ситуация, когда при определенном объеме выборки дальнейшее ее увеличение не дает значительного выигрыша в точности.

Зависимость ошибки выборки от ее объема при 95% доверительном уровне.

Иная ситуация возникает, если изучаемая когорта пациентов имеет низкую распространенность в популяции, а критерии формирования выборки достаточно жесткие (что ограничивает подходящий контингент пациентов). Тогда все отобранные в ходе проспективного исследования пациенты, составляющие генеральную совокупность, будут попадать в исследуемую выборку, т.е. они будут сопоставимы по размеру.

В нашем примере, в соответствии с рисунком, при уровне летальности 9% и объеме выборки 50 человек предельная ошибка будет составлять примерно 10%. Для клинических исследований это недопустимо низкий уровень точности. Увеличение выборки до 200 человек приведет к уменьшению предельной ошибки до 4%, а при объеме выборки 400 пациентов ошибка составит всего 3%. Исходя из требований к клиническим исследованиям точность, при которой ошибка составляет 4%, считается допустимой, поэтому размер выборки можно ограничить 200 больными. Увеличивать объем выборки в два раза, по-видимому, в таком случае нецелесообразно.

Таким образом, в похожих ситуациях исследователи могут планировать продолжительность проспективного исследования исходя из требуемого и допустимого уровня ошибки.

Следует принять во внимание, что для медицинских исследований допустимой ошибкой считается 5%, если же удается получить результат с точностью до 1%, то исследование можно признать крайне убедительным.

Однако даже самое тщательное планирование не позволяет получить размер выборки, гарантирующий получение статистически значимого результата. Два приема используются порознь или вместе:

— автоматическое увеличение размера выборки на 10—15% по отношению к расчетному (особенно популярно при одноцентровых исследованиях небольшой мощности);

— коррекция размера выборки после получения первых данных о показателях, необходимых для более точного математического анализа.

Чем менее точно определен размер выборки при планировании (что не всегда является дефектом работы составителя плана, но, как показано выше, может быть и следствием отсутствия необходимых данных), тем насущнее становится необходимость коррекции данного показателя после появления первичных, предварительных данных, характеризующих исследуемый показатель и его изменения в результате предпринятых воздействий. Как правило, проведение повторного, уточняющего расчета размера выборки планируется до начала исследования и проводится после набора 50—75% от первоначально определенного количества больных.

Некоторые дополнительные замечания относительно определения размера выборки

Принято использовать два подхода к структурированию выборки — вероятностный и детерминированный (стратифицированный) [11]. Первый связан с формированием случайной выборки в процессе рандомизации (каждый элемент выборки включается с равной, ненулевой вероятностью); при использовании второго подхода элементы выборки отбираются субъективно в случае, если они отвечают целям исследования — выборка, основывается на неких частных предпочтениях или суждениях исследователя (например, ограничения по полу, возрасту, массе тела и т.д.).

Вероятностная выборка во многих случаях является предпочтительной, однако ее реализация в практической медицине может быть ограничена. Использование же детерминированного подхода в общем случае предполагает и использование иного математического аппарата или эмпирической методики [12].

Отдельную сложность представляет планирование объема выборки в условиях несоответствия распределения генеральной совокупности нормальному закону, а также при необходимости формирования различных по численности опытной и контрольной групп. Значительная вариабельность характеристик генеральной совокупности, а также многообразие вариантов клинических исследований предъявляют определенные требования к используемым методам планирования объема выборки.

Математический подход к определению размера выборки

Все математические методы определения объема выборки можно классифицировать на несколько групп:

— табличные методы, не требующие априорного представления об изучаемом факторе и о характеристиках генеральной совокупности (совокупности всех объектов или наблюдений, которые подлежат изучению). Описаны ранее;

— методы, требующие от исследователя некоторого представления об изучаемом признаке (количественный, порядковый (шкала), номинальный и т.д.);

— методы, требующие предварительной информации как о признаке, так и о генеральной совокупности (ее размере, нормальности распределения данных).

В медицине и анестезиологии-реаниматологии, в частности, авторы нередко сталкиваются с ситуацией, при которой невозможно оценить распределение исследуемого признака в генеральной совокупности и потому приходится использовать табличные методы при планировании объема выборки. Размер выборки может быть уточнен по мере получения предварительных результатов исследования, что сделает возможным использование математических формул. Это, в свою очередь, в некоторых случаях позволяет снизить риск необоснованного применения тестируемой методики у большего количества больных и уменьшить материальные затраты и нагрузку на медицинский персонал.

Экспертный подход к планированию объема выборки

Как отмечено ранее, в процессе набора данных возможен момент, когда большее количество данных (наблюдений) не обязательно приводит к большему количеству информации. А поскольку качественные исследования очень трудоемки, анализ значительной по размерам выборки может занять много времени, а зачастую и просто будет нецелесообразен [5]. Как правило, для непрерывной оценки размера выборки при проведении клинических исследований используется концепция насыщения выборки данными, позволяющая принимать обоснованные решения о необходимости прекращения процесса набора данных или о продолжении исследования.

Принципы определения насыщенности данных

В зарубежной литературе предложено несколько принципов, относящихся к концепции «насыщенности» в планировании исследования [13]. Согласно J. Francis и соавт., прежде всего необходимо учесть, какого размера будет выборка по завершении первого этапа исследования, чтобы определить основу для прогрессивных суждений о насыщенности данными и оценить наблюдаемую тенденцию, в том числе методами экстраполяции. Объем выборки будет зависеть от особенностей организации исследования, разнообразия выборки и способа ее формирования. Второй принцип заключается в том, что исследователи должны заранее знать продолжительность всего исследования (время набора данных). Важно также, чтобы методы насыщения данных были подробно описаны в тексте статьи, и коллеги имели возможность оценить доказательную базу исследования [13].

Концепция насыщения является в настоящее время спорной ввиду наличия более объективных методик оценки размера выборки [14]. В частности, указывается на тот факт, что для получения представления о размере выборки и мощности исследования приходится делать большое количество допущений. Информацию, необходимую для оценки объема выборки, получают либо из результатов собственных предыдущих исследований (пилотных исследований), либо из источников литературы. Возможны ситуации, при которых исследователь не имеет ни того, ни другого. Тем не менее необходимо заранее знать минимальную величину эффекта, которая в данном исследовании будет считаться достаточной, и на ее основании можно будет сделать предположение о мощности исследования.

Обсуждение

Определение размера выборки — важнейший этап планирования научной работы. Кроме того, это не просто формальный пункт, обязательный к исполнению по прихоти какого-то чиновника от науки. Это инструмент, позволяющий, с одной стороны, не делать лишнюю работу, с другой,— не сомневаться по окончании этой работы при получении отрицательного результата: «что это, реальное отсутствие эффекта или что «не хватило буквально каких-то …дцать больных»? Действительно, задача не так проста, как может показаться, но, соблюдая предложенный алгоритм, можно получить искомый результат с известной точностью [15—26].

Несколько полезных замечаний:

— при анализе пилотных исследований и сопоставимых работ других авторов необходимо обратить внимание не только на схожесть дизайна, но и на факторы, которые послужили причиной разброса данных. К таким факторам можно отнести демографические сведения о пациентах (половозрастные характеристики, прогностические факторы и т.д.), методы сбора информации, погрешности инструментальных и лабораторных методов исследования и прочее;

— необходимо помнить и о том, что мощность исследования зависит не только и не столько от объема выборки, сколько от предполагаемой величины эффекта и разброса данных. Возможно определение объема выборки исходя из априорных представлений об анализируемых параметрах, однако эмпирический подход является субъективным и проигрывает при равных условиях математическому подходу;

— возможны ситуации, при которых исследователь в силу определенных обстоятельств (финансовых, этических, организационных) не способен увеличить или изменить численность групп. В такой ситуации необходимо учитывать, что размер выборки не является единственным фактором качества исследования. И по сей день подходы к анализу объема выборки расширяются. В частности, показано использование однофакторного дисперсионного анализа ANOVA для определения объема выборки [15].

Таким образом, грамотному исследователю доступен широкий функционал математических методов определения требуемого объема выборки, руководствуясь которым в совокупности с собственным опытом и эмпирической методикой можно оптимально спланировать исследование и получить статистически обоснованные выводы.

Заключение

На современном этапе развития науки отсутствует четко установленная, единая методология определения минимально необходимого объема выборки для клинических исследований. В данной работе представлены наиболее часто применяемые методы определения необходимого объема выборки, которые могут быть применены при планировании исследований. Результатом анализа стало формирование единого алгоритма, позволяющего выбрать наиболее подходящую методику определения искомого показателя.

Приложение

Методы, требующие информации о типе анализируемого признака. Эта группа методов определения объема выборки зависит от ряда факторов: вида признаков, связанности выборок, количества предполагаемых групп и подхода к их формированию — вероятностного или детерминированного (стратифицированного). Формулы для расчетов приведены в табл. 5 (формулы 3—15). Использование приведенных формул дает значительно меньшие объемы выборок по сравнению с методами, не требующими информации о характеристиках распределения и типе анализируемого фактора, однако в некоторых случаях это может привести к неоправданному занижению необходимого объема выборки [6].

Таблица 5. Выбор метода планирования объема выборки (математический подход)

Нет информации о признаке/информация неполная

Нет информации о генеральной совокупности

Есть информация о признаке.

Нет информации о генеральной совокупности

Есть информация о признаке

Есть информация о генеральной совокупности (распределение соответствует нормальному закону)

Есть информация о признаке.

Есть информация о генеральной совокупности (распределение не соответствует нормальному закону)

Две выборки: односторонние тесты

Две выборки: двусторонние тесты

Одна выборка (вероятностный подход)

Одна выборка (детерминированный подход)

Одна выборка (погрешность измерений)

Одна выборка (вероятностный подход)

Одна выборка (детерминированный подход)

Методика К.А. Отдельновой [6, 7]

Количественный признак [24]:

(3)

Количественный признак [25]: (7)

(8)

Количественный признак [26]: (11)

Количественный признак [26]: (13)

[20]

(15)

Количественный признак [26]: (16)

Количественный признак [26]:

(18)

Лог-нормальное распределение, Hale W. E. [22]:

(20)

Методика В.И. Паниотто [8]

Качественный признак [25]:

(4)

Качественный признак [25]:

(9) (10)

Оценка доли (частоты признака) [26]: (12)

Оценка доли (частоты признака) [26]: (14)

Номинальный/порядковый признак

[26]: (17)

Качественный признак [26]: (19)

Распределение Пуассона [21]:

(21)

Метод Монте-Карло [23]

Методика N. Fox [9] и S. Das, K. Mitra, M. Mandal [10]

Известна численность одной из групп [17]:

(5)

Примечание. * — Использовать в случае несвязанных выборок; для связанных выборок расчет обеих групп проводить по формулам 7 и 9;

n — рассчитанный объем выборки;

N — объем генеральной совокупности;

????2 — критическое значение критерия Стьюдента при соответствующем уровне значимости;

d2 — предельно допустимая ошибка (минимальная, клинически значимая величина различий, которую необходимо обнаружить, как правило — 5%);

???? — стандартное отклонение признака, который будет изучаться в исследовании (????2 — дисперсия);

???? — доля случаев, в которых встречается анализируемый признак;

Q — доля случаев, в которых не встречается анализируемый признак (100—????);

, — критические значения нормального стандартного распределения для заданных α и β;

α/2 — желаемый уровень значимости;

1-β — желаемая мощность; p — доля признака в группе;

σ(d^2 ) — средняя внутригрупповая дисперсия,

pqd — средняя внутригрупповая дисперсия;

X — среднее арифметическое изучаемого признака;

E — погрешность измерения прибора

Определение Х выборки [6]:

(1)

Сравнение долей (частот признаков) [24]: (6)

Определение выборки [16]:

(2)

Номограммы [6, 18, 19]

Возможны ситуации, при которых оценить некоторые характеристики признака (такие как среднее арифметическое, стандартное отклонение) определить невозможно по причине отсутствия пилотного исследования или сопоставимых исследований в литературе — в данном случае возможно определение параметров с использованием расчетных формул (см. табл. 5, формулы 1—2). Эти формулы требуют наличия экспертных навыков и опыта у исследователя для предварительного определения размаха вариабельности исследуемого признака. Расчет размаха признака основывается на предположении о том, что расстояние между максимальным и минимальным значениями признака приблизительно равно шести стандартным отклонениям, что вытекает из правила трех сигм, и отсюда возможно определение стандартного отклонения (см. табл. 5, формула 2). В частности, если распределение генеральной совокупности соответствует нормальному закону, ее размах приблизительно равен 6σ, а следовательно, стандартное отклонение приблизительно равно одной шестой диапазона [16].

Весьма распространенной является задача планирования объема для последующего сравнения медианного значения определенного параметра между выборками в случае, если распределение признака уже известно, а информация о всей генеральной совокупности еще не получена. Например, необходимо определить объем выборки при сравнении уровня С-реактивного белка (СРБ) в одной группе пациентов с разлитым фибринозно-гнойным перитонитом в 1-е сутки и через 7 суток. Различия считаются статистически значимыми при уровне p<0,05, предельно допустимая ошибка равна 5%. По результатам предварительного (пилотного) исследования известно, что стандартное отклонение σ в первой группе составило 11,5, во второй — 16,2, а разница средних значений уровня СРБ в группах (X1—X2) по модулю составила 2. Так как СРБ является количественным параметром, выборки зависимы (связанные), а объем генеральной совокупности неизвестен, подходящими являются формулы 3 и 7. Однако в связи с тем, что стандартные отклонения в двух выборках различны, воспользуемся формулой 4, так как она учитывает стандартные отклонения обеих выборок.

(4)

Отметим, что при уменьшении разницы X1—X2 (например, в пилотном исследовании ввиду неэффективной терапии уровень СРБ снизился менее чем на 1 единицу) объем выборки будет увеличиваться, что необходимо для выявления незначительных различий в уровне СРБ.

Ввиду финансовых, этических или иных соображений возможна ситуация, при которой требуется формирование различных по объему основной и контрольной групп [17]. Такое часто встречается в обсервационном исследовании или в рандомизированном контролируемом исследовании с неравной рандомизацией. Разработан математический аппарат, позволяющий оценить требуемую численность одной группы при известной фиксированной численности другой группы для формирования заключения о наличии/отсутствии статистически значимых различий между ними (см. табл. 5, формула 5).

Актуальной является задача определения объема выборки для дальнейшей оценки (сравнения) долей (частот встречаемости) признаков в одной или нескольких группах с использованием хи-квадрат критерия Пирсона — для этого случая также представлено несколько методик. Первая связана с использованием критических значений стандартного нормального распределения для оценки объема выборки (см. табл. 5, формулы 6, 12, 14). Вторая методика предполагает использование номограмм [18, 19]. Номограмма представляет собой диаграмму с двумя осями: осью стандартизованной разности и осью величины мощности; на пересечении приведенной прямой с необходимым уровнем значимости находится требуемый объем выборки. Расчет стандартизованной разности предполагает расчет отношения разности средних арифметических значений признака между группами к стандартному отклонению анализируемого признака, а уровень мощности в клинических исследованиях принимается, как правило, равным 0,8—0,9 [6]. В случае связанных выборок стандартизованная разность умножается на 2. В некоторых ситуациях может потребоваться расчет объема выборки с учетом прямой погрешности измерения прибора [20]. Тогда становится возможным заменить t-статистику Стьюдента на Z-оценку стандартного нормального распределения (см. табл. 5, формула 15).

Методы, требующие предварительной информации о виде признака и о генеральной совокупности. Наилучшая ситуация с точки зрения планирования объема выборки возникает при наличии информации о типе признака и о характеристиках распределения совокупности, при этом предпочтительно наличие нормально распределенных данных. В таком случае возможно использование статистических формул с учетом подхода к формированию выборки и использованием t-статистики (см. табл. 5, формулы 16—19). Этот математический аппарат широко описан в литературе, однако он неприменим к данным, распределение которых отлично от нормального [21]. Достаточно давно известен подход к планированию размера выборки для данных, распределение которых близко к лог-нормальному [22] (см. табл. 5, формула 20). По результатам исследования B. Cundill и N. Alexander, описанный выше подход к анализу лог-нормального распределения хорошо работал и для рассмотренных отрицательных биномиальных и гамма-распределений и превосходил по качеству методы, используемые при нормально распределенных данных [21]. Тем не менее он показал лишь незначительное преимущество для пуассоновского распределения, в связи с чем авторами предложен отдельных подход к расчету объема выборки для частного случая — Пуассоновского распределения данных (см. табл. 5, формула 21). В качестве альтернативного подхода к планированию объема выборки описано использование методов Монте-Карло, в частности, модели подтверждающего факторного анализа и модели роста [23]. В исследованиях данные генерируются из совокупности с гипотетическими значениями параметров, выбирается большое количество наблюдений и для каждого образца оценивается модель; значения параметров и стандартные ошибки усредняются по выборкам. Для определения объема выборки требуется соблюдение трех критериев. Первый критерий остановки алгоритма срабатывает в случае отклонения параметров и стандартных ошибок более 10% для любого параметра в модели. Второй критерий — стандартное смещение ошибки для параметра, для которого оценивается мощность, не превышает 5%. Третий критерий — оценка доверительных интервалов находится в интервале между 0,91 и 0,98. В случае, если эти три условия выполнены, размер выборки выбирается так, чтобы мощность была близка к 0,80. В целом такой подход может быть использован и при соответствии распределения совокупности нормальному закону.

Авторы заявляют об отсутствии конфликта интересов.

Понравилась статья? Поделить с друзьями:
  • Ошибка выжившего наоборот
  • Ошибка в3060 опель астра
  • Ошибка во время загрузки компонентов игры статус 1073
  • Ошибка выборки нуля весы штрих принт калибровка
  • Ошибка вольво р024313