При обсуждении временных рядов (Пример 2) мы уже видели, что увеличение размера выборки может привести к выборке из более чем одной совокупности. Существует, по сути, целый ряд проблем обоснования правильности выборки, которые возникают при работе с финансовыми данными.
В этом разделе мы рассмотрим четыре такие проблемы, связанные со смещением отбора (или систематической ошибкой отбора, англ. ‘bias’, ‘selection bias’, ‘systematic error’):
- систематическая ошибка добычи данных (дата-майнинга),
- систематическая ошибка выборки,
- систематическая ошибка опережения и
- систематическая ошибка временного периода.
Все эти вопросы имеют важное значение для точечной и интервальной оценки и проверки статистических гипотез.
Как мы увидим далее, если выборка смещена каким-либо образом, то точечные и интервальные оценки и любые другие выводы, которые мы делаем на основе выборки, будут ошибочны.
Добыча данных или дата-майнинг (или извлечение данных, интеллектуальный анализ данных, глубинный анализ данных, от англ. ‘data-mining’) связана c чрезмерным использованием одних и тех же или связанных данных.
Смещение или систематическая ошибка добычи данных (англ. ‘data-mining bias’) относится к ошибкам, которые возникают из-за неправильного использования данных.
Инвестиционные стратегии, которые отражают систематические ошибки добычи данных, часто не приводят к успеху в будущем. Тем не менее, и инвестиционные практики и исследователи часто занимаются добычей данных. Поэтому финансовые аналитики должны понимать эту проблему и принимать против нее меры.
Дата-майнинг является практикой определения модели с помощью обширного поиска в данных статистически значимых паттернов или шаблонов (то есть, повторяющееся «бурение» в одних и тех же данных, пока не будет найдена работающая модель).
Некоторые исследователи используют термин «отслеживание данных» (англ. ‘data snooping’) вместо термина дата-майнинг.
В упражнениях с участием статистической значимости мы устанавливаем уровень значимости, который является вероятностью того, что мы отвергнем проверяемую гипотезу, которая является фактически правильной.
Чтобы передать сущность добычи данных, очень полезно ввести некоторые основные понятия, связанные с проверкой гипотез. Чтение о проверке статистических гипотез содержит дальнейшее обсуждение уровней значимости и проверке значимости.
Поскольку отказ от истинной гипотезы является нежелательным, исследователь часто устанавливает относительно небольшой уровень значимости (англ. ‘significance level’), например 0.05 или 5.
С точки зрения нашего предыдущего обсуждения доверительных интервалов, значимость на уровне 5% соответствует гипотетическому значению статистики совокупности, выходящему за пределы 95-процентного доверительного интервала, основанного на соответствующей выборочной статистике (например, выборочного среднего, когда гипотеза относится к среднему значению по совокупности).
Предположим, что мы проверяем гипотезу о том, что переменная величина не предсказывает доходность акций, и мы тестируем в свою очередь, 100 других различных переменных величин.
Предположим также, что на самом деле, ни одна из этих 100 переменных не обладает возможностью прогнозировать доходность акций. Используя уровень значимости 5% в наших тестах, мы по-прежнему ожидаем, что 5 из 100 переменных, окажутся значимыми предикторами (т.е. прогнозирующими факторами) доходности акций, потому что такая вероятность остается.
Мы добыли данные, чтобы найти некоторые, по-видимому, значимые переменные. В сущности, мы исследовали одни и те же данные снова и снова, пока мы не нашли в конце концов паттерн (шаблон) или паттерны в наборе данных. Именно в этом смысле добыча данных подразумевает чрезмерное использование данных.
Если мы сообщим только о значимых переменных величинах, не сообщив при этом об общем количестве переменных, тестирование которых не увенчались успехом, то мы представим очень искаженную картину наших выводов.
Наши результаты покажутся гораздо более значимыми, чем есть на самом деле, потому что серия тестов, такая как только что описанная, сводит на нет традиционное толкование заданного уровня значимости (например, 5%), согласно теории статистического вывода.
Как мы можем определить наличие систематической ошибки добычи данных?
Для большинства финансовых данных это означает проверку нужной переменной или стратегии за пределами выборки.
Проверка или тест за пределами выборки (или нешаблонный тест, от англ. ‘out-of-sample test’) использует выборку, которая не пересекается с временным периодом (периодами) выборки (выборок), к которому относится данная переменная, стратегия, или модель. Если переменная или инвестиционная стратегия является результатом дата-майнинга, она, как правило, не должна быть значимой в проверках за пределами выборки.
Переменная или инвестиционная стратегия, которая является статистически и экономически значимой в проверках за пределами выборки, имеет правдоподобную экономическую основу, и может быть основой для правильной инвестиционной стратегии.
Тем не менее, нужна осмотрительность. Наиболее важным тестом за пределами выборки является будущий успех инвестиций.
Если стратегия станет известна другим инвесторам, цены могут скорректироваться таким образом, что стратегия, несмотря на то, что она хорошо протестирована, не сработает в будущем.
Подводя итоги, финансовый аналитик должен осознавать, что многие, вероятно прибыльные инвестиционные стратегии могут отражать систематическую ошибку интеллектуального анализа данных, поэтому нужно проявлять осторожность в отношении будущего применения опубликованных результатов инвестиционных исследований.
Интеллектуальный анализ больших объемов данных может быть сложным. Для того, чтобы оценить значение инвестиционной стратегии, мы должны знать, сколько неудачных стратегий были протестированы не только текущим исследователем, но и предыдущими исследователями с использованием тех же или связанных данных.
На практике, многие исследования сильно полагаются на то, что сделали другие исследователи ранее, и поэтому отражают межпоколенческий интеллектуальный анализ данных, использовать терминологию МакКвина и Торли (McQueen and Thorley, 1999).
Межпоколенческая добыча данных (англ. ‘intergenerational data mining’) предполагает использование информации, разработанной предыдущими исследователи с использованием определенных данных, чтобы вести текущие исследования с использованием тех же или связанный данных.
Термин «межпоколенческий» (англ. ‘intergenerational’) означает, что исследователи, осуществляющие каждый раунд исследований, воспринимаются как поколение. Кэмпбелл, Ло и МакКинли (Campbell, Lo and MacKinlay, 1997) назвали межпоколенческий дата-майнинг «отслеживанием данных».
Последняя фраза, однако, обычно используется как синоним интеллектуального анализа данных (т.е. дата-майнинга). Таким образом, терминология МакКвина и Торли менее неоднозначна.
Термин «внутрипоколенческая добыча данных» (англ. ‘intragenerational data mining’) применяется, если мы хотим подчеркнуть, что речь идет о новой или независимой добыче данных исследователя.
Аналитики уже накопили много наблюдений об особенностях многих финансовых наборов данных, и другие аналитики могут разрабатывать модели или инвестиционные стратегии, которые, как правило, поддерживаются данными, основанными на их знакомстве с предшествующим опытом других аналитиков.
Как следствие, важность этих новых результатов может быть завышена. Исследования показали, что величина этого типа смещения добычи данных может быть значительной.
Например, Ло и МакКинли (1990), проведя тестирование модели ценообразования финансовых активов, пришли к выводу, что величина системной ошибки этого типа была значительной.
На фоне приведенных выше определений и объяснений, мы можем понять убедительное исследование добычи данных, проведенное МакКвином и Торли (1999), в контексте популярной инвестиционной стратегии «Fool Four» финансовой аналитической компании Motley Fool.
Стратегия «Fool Four» или «Четыре джокера» (игра слов, связанная с названием компании Motley Fool, т.е. дословно — шут, изображенный на игральной карте-джокере), впервые представленная в 1996 году, была версией стратегии Dow Dividend Strategy, которая была настроена разработчиками так, чтобы показать еще более высокую среднеарифметическую доходность, чем у дивидендной стратегии Доу в период 1973 до 1993 года.
Дивидендная стратегия Доу (англ. ‘Dow Dividend Strategy’), также известная как «Собаки Доу» (англ. ‘Dogs of the Dow Strategy’), заключается в удерживании равновзвешенного портфеля из 10 самых доходных акций индекса DJIA (индекс Доу-Джонса для акций промышленных компаний) по состоянию на начало года.
Во время исследования МакКвина и Торли, стратегия Четыре джокера осуществлялась следующим образом: в начале каждого года портфель Четырех джокеров формируется из 4 акций, выбранных из 5 акций с самой низкой ценой, выбранных из 10 самых доходных акций DJIA.
Последняя, самая дешёвая из 5 акций с самой низкой ценой исключается, 40% средств инвестируется в предпоследнюю акцию, а остальные 60% инвестируются по 20%, в оставшиеся 3 из 5 акций с самой низкой ценой.
С 1973 по 1993 портфель Четырех джокеров приносил среднюю годовую доходность в размере 25%, и в СМИ появилось заявление о том, что стратегия должна приносить аналогичные доходы в будущем.
Однако, как выяснили МакКвин и Торли, стратегия Четырех джокеров была объектом очень сильной систематической ошибки интеллектуального анализа данных, в том числе систематической ошибки межпоколенческого дата-майнинга, поскольку разработчики стратегии опирались на наблюдения, сделанные предыдущими исследователями.
МакКвин и Торли осветили вопросы интеллектуального анализа данных, продвинув стратегию Четырех Джокеров еще на один шаг вперед. Они добыли данные, на основе которых создали портфель «Разорванная четверка» (англ. ‘Fractured Four’), который принес почти 35% доходность с 1973 по 1996 год, побив стратегию Четырех джокеров почти на 8 процентных пунктов.
Заметив, что все акции Четырех джокеров хорошо показали себя в четные годы, но не в нечетные годы, и что предпоследняя акция из 10 акций с самыми низкими ценами была соответственно самой высокодоходной акцией в нечетные годы, портфельная стратегия Разорванная четверка предписывала удерживать акции Четырех Джокеров в равных пропорциях (т.е. инвестировать по 25% в каждую акцию) в четные годы и удерживать только предпоследнюю акцию (т.е. инвестировать в нее 100%) в нечетные годы.
Насколько велика вероятность того, что разница в эффективности между четными и нечетными годами отражает лежащие в ее основе экономические силы, а не случайный паттерн данных за определенный период времени?
Это возможно, но очень маловероятно.
Если инвестиционная стратегия не отражает лежащие в ее основе экономические силы, мы не ожидаем, что она представляет собой какую-либо ценность как инструмент для прогнозирования рынка. Поскольку стратегия Четырех джокеров также использовала интеллектуальный анализ данных, проблемы дата-майнинга распространяются и на нее.
МакКвин и Торли обнаружили, что в тесте за пределами выборки — за период 1949-72 г., стратегия Четырех джокеров приносила примерно такой же средний доход, что базовая стратегия, заключавшаяся в покупке и удерживании акций DJIA, но с более высоким риском. Если также учесть более высокие налоги и операционные издержки стратегии Четырех джокеров были, то сравнение оказывалось еще более неблагоприятным.
МакКвин и Торли сформулировали два признака, которые могут предупредить аналитиков о возможном наличии систематической ошибки интеллектуального анализа данных:
Слишком много «рытья» / слишком мало уверенности.
Тестирование исследователем множества переменных считается признаком проблемы «слишком много рытья» (англ. ‘too much digging’) интеллектуального анализа данных.
К сожалению, многие исследователи не раскрывают число переменных, рассматриваемых ими при разработке модели. Хотя о числе рассматриваемых переменных может не сообщаться в отчете об исследовании, мы должны внимательно взглянуть на словесные намеки на то, что исследователь проверил множество переменных.
Использование таких фраз, как «мы заметили (или отметили), что» или «кто-то заметил (или отметил), что» в отношении паттерна набора данных, должно вызвать подозрения в том, что исследователи проверяли переменные на основе собственных или чужих наблюдений данных.
Нет объяснения / нет будущего.
Отсутствие явного экономического обоснования для переменной или торговой стратегии не является признаком проблемы «нет объяснения» (англ. ‘no story’) интеллектуального анализа данных. Без правдоподобного экономического обоснования или объяснения того, почему переменная должна работать, эта переменная вряд ли будет оказывать каким-либо прогностический эффект.
В демонстрационном упражнении с применением обширного поиска переменных в международной финансовой базе данных, Лейнвебер (Leinweber, 1997) обнаружил, что уровень производства масла в той или иной стране, удаленной от США, объясняет 75% изменений доходности акций США по индексу S&P 500.
Такой вывод, без правдоподобного экономического обоснования, весьма вероятно, будет случайным паттерном, характерным для конкретного периода времени.
В финансовой литературе случайную, но не имеющую отношения к будущему модель, иногда называют артефактом набора данных (англ. ‘artifact of the dataset’).
Но что делать, если у нас есть правдоподобное экономическое объяснение значимой переменной?
МакКвин и Торли предостерегают о том, что правдоподобное экономическое обоснование является необходимым, но не достаточным условием для того, чтобы торговая стратегия была значимой.
Как мы уже упоминали ранее, если стратегия станет общеизвестна, рыночные цены могут скорректироваться с учетом новой информации, так как трейдеры будут стремиться использовать эту стратегию. В результате, стратегия может перестать работать.
Систематическая ошибка (bias) исследования — это фактор, который приводит к неверной оценке ассоциации между изучаемым воздействием и эффектом. Даже самое строгое планирование условий исследования не избавляет от влияния ошибок, связанных с принципом отбора пациентов, сбора, передачи и интерпретации информации. Вот почему в ходе оценки полученных результатов необходимо критически анализировать возможность того, что выявленные ассоциации связаны с влиянием систематической ошибки, и дать оценку вероятности такого объяснения. В отличие от вероятности случайности ассоциации, которая может получить количественную оценку, эффект влияния систематической ошибки трудно поддается оценке, а нередко может просто оказаться неучтенным. В этой связи ключевым моментом в планировании любого исследования является создание таких условий, в которых любое возможное влияние систематической ошибки было бы заранее принято во внимание и сведено к минимуму. Однако даже при соблюдении этих условий на этапе планирования, на заключительном этапе необходимо оценить: не могла ли систематическая ошибка все-таки закрасться в исследование, каков вероятный источник этой ошибки, в каком направлении она могла повлиять на полученные результаты?
Имеются многочисленные классификации систематических ошибок, однако принципиально можно выделить два вида, в рамках которых есть отдельные варианты.
Первый вид можно обозначить как ошибку отбора (selection bias), источник которой — принцип отбора субъектов для участия в исследовании.
Второй вид обозначается как обсервационная, или информационная, ошибка (observation or information bias), и данный вид систематической ошибки связан с оценкой информации, касающейся патогенного воздействия и его эффекта (Shadish W. R. [et al.], 2001; Rossi P. H. [et al.], 2004; Rothman K. J. [et al.], 2008; Straus S. E., 2011).
Ошибка отбора. Отбор индивидуумов для участия в большинстве аналитических исследований проводится с учетом имевшего место патогенного воздействия (в когортных исследованиях) либо имеющегося эффекта этого воздействия, например развившегося заболевания (в исследованиях типа «случай — контроль»). Принципиально важно, чтобы на этапе отбора пациентов изучаемое воздействие и изучаемый эффект этого воздействия не учитывались одновременно и не могли одновременно влиять на принятие решения об отборе пациентов для участия в исследовании. Несоблюдение этого условия является источником ошибки отбора. Ошибка отбора возможна, если в исследовании «случай — контроль» отбор испытуемых каким-то образом связан с имевшим место патогенным воздействием, а в ко-гортных исследованиях — с установленным фактом развития заболевания. Ошибка отбора представляет наибольшую опасность для исследований «случай — контроль» и ретроспективных когортных исследований, так как к началу тех и других уже имеется информация о патогенном воздействии и развитии заболевания. Напротив, ошибка отбора маловероятна при осуществлении проспективных когортных исследований, когда на начальной стадии имеется лишь информация о воздействии, но отсутствуют сведения о его эффекте (Кельмансон И. А., 2002).
Ошибку отбора могут спровоцировать многочисленные обстоятельства, влияющие на подход к отбору пациентов для участия в исследовании:
- различия в медицинском наблюдении за отдельными лицами;
- частота обращений пациентов за медицинской и психологической помощью;
- качество диагностики и т. п.
Кроме того, в исследованиях типа «случай — контроль» причиной ошибки отбора могут быть различия в высказывании согласия участвовать в исследовании лиц, относящихся к двум сопоставляемым группам. Например, семьи, характеризуемые низким социальным статусом, по ряду причин могут с большей вероятностью отказаться от участия в исследовании в качестве контрольных наблюдений, если целью такого исследования является изучение ассоциации между социальным неблагополучием и риском какого-либо заболевания.
Обсервационная (информационная) ошибка возникает в связи с систематическими различиями в способах получения информации об имевшемся предполагаемом патогенном воздействии или развитии заболевания в сопоставляемых группах. Если собранные данные являются неполными или неточными и в сопоставляемых группах эта неточность варьирует, не исключена возможность выявления ложной ассоциации. В зависимости от источника происхождения различают несколько вариантов обсервационных ошибок:
Ошибка воспроизведения (recall bias) возникает:
- когда лица, страдающие анализируемым заболеванием, способны воспроизвести информацию о предполагаемом патогенном воздействии в предшествующий период иначе, нежели лица, не страдающие этим заболеванием. Такая ситуация особо вероятна в исследованиях «случай — контроль»;
- когда лица, подвергшиеся изучаемому воздействию, способны предоставить информацию о потенциальных последствиях этого воздействия иным образом, чем те обследуемые, которые не испытали на себе патогенного воздействия (в проспективных когортных исследованиях).
Естественно, сказанное относится не только к самим обследуемым, но и к их окружению: родителям, другим родственникам, медицинскому персоналу. Ошибка воспроизведения может приводить как к недооценке, так и к переоценке выраженности предполагаемой ассоциации в зависимости от того, как наличие патологического состояния у обследуемых лиц влияет на получаемую информацию.
Ошибка интервьюера (interviewer bias) возникает в связи с систематическими различиями в методике сбора, регистрации и интерпретации интервьюерами информации, полученной у отдельных участников исследования независимо от дизайна исследований:
- В исследованиях «случай — контроль» возникает особая опасность: осведомленность интервьюера о наличии или отсутствии заболевания у обследуемых может способствовать большей склонности к поиску и обнаружению предшествующих патогенных воздействий у лиц, страдающих заболеванием.
- В ретроспективных когортных исследованиях существует та же опасность осведомленности интервьюера и опасность информационной ошибки в форме ошибки интервьюера.
- В интервенционных исследованиях может наблюдаться ошибка интервьюера, если не используется плацебо-контроль и слепой метод .
Источником систематической информационной ошибки в когортных исследованиях может послужить фактор потери обследуемых (loss to follow-up) в ходе динамического наблюдения , особенно если процент таких потерь существенно различается в зависимости от отношения обследуемых к изучаемому воздействию и его эффекту.
Еще одним вариантом информационной ошибки является неверная классификация (misclassification), при которой неверно оценивается факт имевшегося патологического воздействия или его эффекта. Ошибки классификации неизбежно возникают в ходе любого исследования, однако их опасность становится наиболее значимой, если наличие изучаемого патологического состояния у пациента в определенном направлении влияет на качество распознавания предшествовавшего патогенного воздействия, или, напротив, факт патогенного воздействия в определенном направлении влияет на распознавание патологического состояния, связанного с этим воздействием , Такая ситуация именуется дифференцированной ошибкой, которая может существенно искажать результаты исследования.
Важнейшим принципом, которым следует руководствоваться для предотвращения систематической ошибки, является тщательное планирование исследования. В некоторых случаях можно усмотреть ошибку в ходе исследования и принять меры к ее минимизации или устранению, однако при наличии ошибки отбора ее устранение может представляться маловероятным. Вот почему стадия планирования исследования является в этом отношении критичной.
Можно отметить несколько ключевых позиций, учет которых позволяет избежать систематических ошибок. В их числе принцип формирования обследуемой выборки, требования к источникам информации, методики сбора и анализа данных. Имеются многочисленные факторы, которые предопределяют, в какой мере подходы к формированию выборки повлияют на снижения вероятности систематической ошибки , Например, использование госпитальных контрольных наблюдений в исследованиях «случай — контроль» позволяет улучшить сопоставимость обследуемых с точки зрения их желания принять участие в исследовании, нивелировать влияние факторов, предопределивших выбор медицинского учреждения, куда были госпитализированы пациенты и где они были обследованы. Указанные обстоятельства позволят снизить вероятность ошибки, связанной с отказом пациентов от участия в исследовании, избежать ошибки отбора и воспроизведения , Для когортных исследований и клинических испытаний, когда принципиальна возможность следить за судьбами обследуемых в течение заданного промежутка времени, основой отбора нередко является наличие точных сведений о месте жительства и занятости испытуемых. Кроме того, включение в исследование тех лиц, которые имеют повышенный риск развития изучаемого заболевания, позволяет ожидать большей заинтересованности в сотрудничестве с исследователем и более регулярных контактах.
Во многих аналитических исследованиях методика сбора информации может оказать принципиальное влияние на полученные результаты. С практической точки зрения минимизировать влияние систематической информационной ошибки удается, если обеспечены:
- создание специального инструментария сбора информации в форме тестов, опросников, стандартных бланков и т. п.;
- разработка такого протокола исследования, который позволит оптимально использовать выбранный инструментарий. Независимо от того, какова методика исследования, она должна последовательно реализовываться в процессе сбора информации в каждой из сопоставляемых групп (Кельмансон И. А., 2002).
Инструментарий. Наиболее существенным резервом снижения влияния систематической ошибки является использование максимально стандартизованных и объективных методик. Если предметом исследования являются показатели артериального давления, информацию обеспечивают данные анкетирования пациентов и данные нескольких измерений, проведенных квалифицированным медицинским персоналом с соблюдением техники измерения; очевидно, второй способ является более объективным и, следовательно, более предпочтительным. Если же источником информации является опрос обследуемых, следует стремиться к максимальной точности формулировок вопросов и однозначности их интерпретации анкетируемыми.
Протокол. Важнейшим подходом к минимизации потенциальной ошибки является стремление к сбору информации «вслепую». Персонал, который осуществляет сбор данных или обследование пациентов, не должен быть осведомлен о том, испытал ли пациент изучаемое воздействие, если проводится проспективное когортное или интервенционное исследование. Персонал не должен быть осведомлен о том, имеется ли у пациента изучаемое заболевание, предполагаемый эффект воздействия, если изучается возможное влияние предшествовавшего патогенного воздействия в ходе исследования «случай — контроль» . Более того, весьма желательно, чтобы сами обследуемые лица, по возможности, были минимально осведомлены о том, каков их собственный статус в исследовании, а также о том, какова суть гипотезы исследования. Очевидно, пределы неосведомленности во многом определяются этическими соображениями. Хотя эффективность исследования «вслепую» является доказанной с точки зрения снижения риска систематической информационной ошибки, полное соблюдение этого принципа не всегда представляется возможным.
Регламентация. Не менее важным подходом, позволяющим снизить потенциальный риск информационной ошибки, является обучение персонала стандартной и строгой методике сбора данных, использование четко регламентированного протокола исследования. Иногда берутся на вооружение специальные приемы, позволяющие заподозрить нарушения протокола, несоблюдение идентичности подхода к сбору информации в двух сопоставляемых группах. Так, возможно сопоставление частоты, с которой лица, относящиеся к двум группам, указывают на наличие у них фиктивных переменных (dummy variables), никак не связанных ни с предполагаемым патогенным воздействием, ни с изучаемым заболеванием или, напротив, имеющих с ними доказанную, четко определенную связь.
Пример
При исследовании возможной ассоциации между приемом матерью транквилизаторов во время беременности и риском нарушений сна у ребенка первого года жизни можно попросить обследуемых женщин дать ответ на вопрос: принимали ли они во время беременности, кроме транквилизаторов, иные лекарственные препараты, в частности такие лекарства, для которых доказано отсутствие связи с последующим риском нарушений сна у ребенка. Например, можно попросить ответить на вопрос о приеме ими слабительных препаратов. Если сопоставление частоты употребления лекарственных препаратов во время беременности женщинами, дети которых имели нарушения сна, и женщин, дети которых не имели нарушений сна, выявит более частое использование транквилизаторов у женщин из первой группы, но не выявит различий в использовании слабительных, можно думать о том, что ассоциация действительно является значимой. Напротив, наличие достоверных различий между двумя сопоставляемыми группами в частоте использования и транквилизаторов и слабительных позволит заподозрить, что они связаны с влиянием ошибки воспроизведения или ошибки интервьюера. С другой стороны, в опросник можно было бы включить сведения о курении матери во время беременности — доказанном факторе риска нарушений сна у ребенка первого года жизни (Kelmanson I. A., 2009). Если в ходе исследования одновременно с выявлением ассоциации между использованием матерью транквилизаторов во время беременности и риском нарушений сна у ребенка будет также воспроизведена и доказанная ассоциация между курением матери во время беременности и риском нарушений сна у ребенка, это может послужить дополнительным аргументом в пользу валидности исследования.
Дублирующие вопросы. В опросник включают несколько вопросов, сформулированных по-разному, но принципиально направленных на поиск одной и той же ассоциации. Различия в выявленных ассоциациях, оцениваемых на основе ответов на дублирующие друг друга вопросы, могут навести на мысль о существовании систематической ошибки. Учет времени, потраченного интервьюером на беседу с пациентом, позволяет определить, не тратит ли интервьюер систематически больше или меньше времени на получение информации у представителей той или иной группы, что также может явиться источником систематической ошибки.
Наконец, может быть полезным включение в опросник шкалы, позволяющей интервьюеру дать собственную субъективную оценку того, насколько конкретный пациент адекватно воспринимает задаваемые ему вопросы и дает на них ответы. В дальнейшем субъекты с неудовлетворительными оценками качества своих ответов могут быть исключены из исследования или проанализированы отдельно.
Источник информации оказывает существенное влияние и на вероятность систематической ошибки. Сведения об имевшемся патогенном воздействии и о наличии заболевания могут быть получены в результате непосредственного опроса обследуемых лиц, анализа медицинской документации, статистики рождаемости и смертности, а также в результате непосредственного измерения интересующих показателей. Наиболее надежным источником информации следует признать медицинскую документацию, оформленную до начала исследования, как наименее подверженную влиянию субъективных оценок, связанных с целями и задачами исследования, и максимально свободную от влияния информационной ошибки. В то же время такие архивные документы могут не содержать сведений о ряде признаков, непосредственно интересующих исследователя. Более того, степень информационных пробелов может существенно различаться в отдельных сопоставляемых группах наблюдений.
Пример
Анализ архивных документов, относящихся к детям из отдельных категорий риска (недоношенные, маловесные, имеющие врожденные пороки развития и т. п.), убеждает в более пристрастном отношении медицинских работников к активному выявлению отягощающих моментов акушерско-гинекологического анамнеза, чем в случае рождения ребенка без явных клинических признаков патологии (Кельмансон И. А., 2002). Данный пример иллюстрирует необходимость по мере возможности использовать и сопоставлять различные источники информации.
Исследования, основанные на анализе медицинской документации, могут предполагать использование стационарных историй болезни, патологоанатомических протоколов, а также амбулаторных данных. Сведения, полученные с помощью опросников и анкетирования обследуемых субъектов, могут дополняться и верифицироваться данными анализа медицинской документации. Следует понимать, что потребность в верификации данных о наличии патогенного воздействия или заболевания во многом зависит от самой природы изучаемого заболевания. Все анализируемые воздействия и вероятные исходы этих воздействий должны иметь четкие критерии для их констатации. В случаях распознавания отдельных заболеваний (патологических состояний) нередко говорят о существовании принятого «золотого стандарта», и качество исследования во многом определяется тем, использовался ли этот стандарт для верификации диагноза. Нередко в качестве «золотого стандарта» выступают критерии, разработанные экспертами ВОЗ или иными авторитетными экспертами на основе консенсуса.
Несмотря на усилия избежать систематической ошибки на стадии планирования исследования, всегда существует вероятность ее наличия. Вот почему на стадии анализа и обсуждения полученных результатов требуется дать критическую оценку:
- Какая ошибка и в какой мере могла повлиять на полученные результаты?
- В каком направлении — маскирования истинной ассоциации или ее гиперболизации — систематическая ошибка могла повлиять на полученные результаты?
- Какова возможная степень этого искажения?
Такие оценки не имеют количественного выражения и не могут быть проверены с использованием какого-то статистического критерия: они основаны лишь на здравом смысле и понимании конкретной клинической ситуации, сопряженной с исследованием.
Следует также иметь в виду, что отдельные варианты исследований в разной мере подвержены влиянию систематических ошибок конкретных видов:
— Исследования «случай — контроль». В максимальной степени возможна ошибка, связанная со следующими обстоятельствами:
- сведения о статусе обследуемого в отношении наличия или отсутствия у него заболевания могут влиять на принятие решения в отношении имевшегося патогенного воздействия (ошибка воспроизведения);
- сведения об имевшемся или отсутствовавшем патогенном воздействии могут повлиять на выявление распознаваемого заболевания (ошибка отбора) (Кельмансон И. А., 2002).
— Когортные исследования, Особую тревогу вызывает ошибка, связанная с потерями обследуемых в ходе динамического наблюдения .
— Интервенционные исследования. Вероятность обсервационной ошибки зависит во многом от характера сопоставляемых групп, использования плацебо и степени объективности оценки результатов.
В любом исследовании возможна ошибка классификации. При этом принципиально важно следующее:
- дифференцированная ошибка может приводить как к занижению, так и к завышению реальной ассоциации;
- недифференцированная ошибка приводит лишь к занижению ассоциации .
СМЕЩЕНИЕ, СИСТЕМАТИЧЕСКАЯ ОШИБКА
- СМЕЩЕНИЕ, СИСТЕМАТИЧЕСКАЯ ОШИБКА
-
- СМЕЩЕНИЕ, СИСТЕМАТИЧЕСКАЯ ОШИБКА
-
(bias) Тенденция к систематическому завышению или занижению оценок переменных величин. Систематическая ошибка может возникать из-за метода статистической выборки (sample selection) и формулировки вопросов или в ходе расчетов, производимых на базе накопленных данных. Исследователи стараются делать случайные статистические выборки, которые позволяют избежать заведомых ошибок в результатах, и стремятся точно формулировать вопросы, не допускающие уклончивых ответов. Если остаточная систематическая ошибка известна, требуется соответствующим образом изменить методы расчетов.
Экономика. Толковый словарь. — М.: «ИНФРА-М», Издательство «Весь Мир».
.
2000.
Экономический словарь.
2000.
Смотреть что такое «СМЕЩЕНИЕ, СИСТЕМАТИЧЕСКАЯ ОШИБКА» в других словарях:
-
Систематическая ошибка измерений, вызванная влиянием пола (sex bias in measurement) — С. о. и. имеет место в тех случаях, когда группы реагируют по разному на задания в тестах достижений, интеллекта или способностей, либо в др. измерительных инструментах, таких как опросники интересов. С. о. и., вызванная влиянием пола, имеет… … Психологическая энциклопедия
-
Систематическая ошибка тестов, обусловленная культурными факторами (cultural bias in tests) — Между разными соц. и расовыми группами наблюдаются существенные различия в средних значениях оценок по стандартизованным тестам умственных способностей, широко применяемым при приеме в школы и колледжи, наборе в вооруженные силы и найме на работу … Психологическая энциклопедия
-
смещение — 3.3 смещение (bias): Разность между математическим ожиданием результатов измерений и истинным (принятым опорным) значением. [ЕН 482] Источник: ГОСТ Р ЕН 13205 2010: Воздух рабочей зоны. Оценка характеристик приборов для определения содержания… … Словарь-справочник терминов нормативно-технической документации
-
систематическая погрешность — 3.8 систематическая погрешность (bias): Разность между математическим ожиданием результатов измерений и истинным (или в его отсутствие принятым опорным) значением. Примечание 5 Большее систематическое отклонение от принятого опорного значения… … Словарь-справочник терминов нормативно-технической документации
-
смещение (результата проверки) — 3.13. смещение (результата проверки) Разность между математическим ожиданием результатов проверки и принятым нормальным значением (по ИСО 5725.1). Примечание Смещение это общая систематическая ошибка в противоположность случайной ошибке. Может… … Словарь-справочник терминов нормативно-технической документации
-
СМЕЩЕНИЕ — (BIAS) Систематическая ошибка или смещение это разница между истинным значением переменной и ее средним значением, полученным при проведении повторных исследований. Любое расхождение между истинным и исследовательским значениями в пределах одного … Социологический словарь
-
Оценка и принятие решений (judgment and decision making) — Исслед. в области О. и п. р. можно разбить на четыре категории: поведенческие, когнитивные, организационные и системы поддержки решения. Каждая из этих категорий имеет свою собственную теорет. перспективу и методологию, применяемую при анализе… … Психологическая энциклопедия
-
ГОСТ Р 50779.10-2000: Статистические методы. Вероятность и основы статистики. Термины и определения — Терминология ГОСТ Р 50779.10 2000: Статистические методы. Вероятность и основы статистики. Термины и определения оригинал документа: 2.3. (генеральная) совокупность Множество всех рассматриваемых единиц. Примечание Для случайной величины… … Словарь-справочник терминов нормативно-технической документации
-
Культурно свободные тесты (culture fair tests) — Термин «К. с. т.» относится к тестам, «справедливым» в отношении любой конкретной культурной группы. И хотя технически невозможно разраб. тест, полностью лишенный систематических ошибок, обусловленных культурными факторами, существует множество… … Психологическая энциклопедия
-
точность — 3.1.1 точность (accuracy): Степень близости результата измерений к принятому опорному значению. Примечание Термин «точность», когда он относится к серии результатов измерений, включает сочетание случайных составляющих и общей систематической… … Словарь-справочник терминов нормативно-технической документации
ОШИБКА СИСТЕМАТИЧЕСКАЯ, син. смещение (BIAS) — отклонение выводов от истины или процесс, приводящий к подобному отклонению. Любое уклонение (искажение) в сборе, анализе, интерпретации, публикации или обзоре данных, ведущее к выводам, которые систематически отличаются от истины. Среди путей, ведущих к отклонениям от истины, можно выделить:
- Систематическое (одностороннее) отклонение результатов измерений от истинных величин (систематическая ошибка в узком смысле).
- Отклонение суммарных статистических оценок (средних, частот, мер связи и т.д.) от их истинных значений в результате систематического отклонения результатов измерений, других погрешностей в сборе данных или погрешностей в дизайне исследования или анализе данных.
- Отклонение выводов от истины в связи с недостатками дизайна исследования, сбора данных, анализа или интерпретации результатов.
- Тенденция процедур (в дизайне исследования, при сборе данных, анализе, интерпретации, обзоре или публикации результатов) давать результаты или выводы, отклоняющиеся от истины.
- Предубеждения, вызывающие сознательный или неосознанный отбор процедур исследования, ведущих к отклонению от истины в определенном направлении или к односторонней интерпретации результатов.
Термин систематическая ошибка не обязательно предполагает обвинения в предубежденности или наличии другого субъективного фактора, такого, как желание получить определенный результат. Это отличает данный термин (bias) от его традиционного значения — пристрастная точка зрения. Описано множество разновидностей систематических ошибок.
Систематическая ошибка может быть обусловлена:
- назначением препаратов с учетом прогноза врачи по-разному подходят к назначению терапии при различном прогнозе В таких случаях сравнение результатов в основной и контрольной группах приведет к неправильной оценке эффекта лечения
- методами регистрации данных, возникает при использовании в сравниваемых группах различных подходов к регистрации данных (с помощью компьютера и вручную)
- выявлением определенного исхода, возникает при более тщательном выявлении изучаемого клинического исхода в одной из сравниваемых групп
- использованием изучаемого диагностического метода в комплексном обследовании, результаты которого рассматриваются как «золотой стандарт» для оценки этого метода
- более тщательным опросом участников одной из сравниваемых групп;
- предпочтительной публикацией положительных результатов, возникает, если вероятность публикации полученных данных зависит от того, выявляют ли они клиническую и статистическую значимость эффекта вмешательства
- влиянием клинического исхода на воспоминания о воздействии, возникает вследствие того, что участники, у которых возникли изучаемые клинические исходы, чаще вспоминают о соответствующем вредном воздействии, чем участники из контрольной группы; независимо от реальных наличия, длительности и интенсивности воздействия;
- влиянием ожидаемого исхода на особенности исследования, синоним систематической ошибки, связанной с выявлением определенного исхода; возникает при более тщательном выявлении клинического исхода в одной из сравниваемых групп;
- подтверждением диагноза, возникает, если результаты диагностического теста влияют на включение участника в группу вмешательства.
См. также:
- Систематическая ошибка выборки
- Систематическая ошибка наблюдателя
- Систематическая ошибка отбора
Sackett D.L. Bias in analytic research. J Chronic Dis, 1979; 32:51—63.
Время на прочтение
15 мин
Количество просмотров 14K
предыдущие главы
20 Смещение и разброс: Два основных источника ошибок
замечание переводчика До изменения, данная глава называлась «Систематические и случайные: Два основных источника ошибок», т. е. я использовал термины «случайной ошибки» и «систематической ошибки» для перевода bias и variance. Однако, форумчанин робот@Phaker в комментарии справедливо заметил, что в области машинного обучения в русскоязычной терминологии для данных терминов закрепляются понятия «смещение» и «разброс». Я посмотрел работы К.В. Воронцова, который заслужено является одним из авторитетов в области машинного обучения в России и ресурсы профессионального сообщества, и согласился с замечанием робот@Phaker. Несмотря на то, что с моей точки зрения, между «смещением» (bias) и «разбросом» (variance) при обучении алгоритмов и «систематической ошибкой» и «случайной ошибкой» физического эксперимента существует глубокая содержательная аналогия, кроме того они одинаково выражаются математически, все же правильно использовать устоявшиеся в данной области термины. Поэтому я переработал перевод данной и последующих глав, заменив «Систематическую и Случайные ошибки» на «Смещение и Разброс» и буду придерживаться этого подхода в дальнейшем.
Предположим, ваша тренировочная, валидационная и тестовая выборки имеют одно и то же распределение. Тогда нужно брать больше данных для обучения, это только улучшит качество работы алгоритма, верно ли это?
Несмотря на то, что получение большего количества данных не может повредить работе, к сожалению, новые данные не всегда помогают настолько, насколько можно ожидать. В некоторых случаях работа по получению дополнительных данных может оказаться пустой тратой усилий. Как принять решение — в каких случаях добавлять данные, а когда не стоит об этом беспокоиться.
В машинном обучении присутствуют два главных источника ошибок: смещение и разброс (дисперсия). Понимание того, что они из себя представляют поможет вам решить — нужно ли добавлять еще данные, так же поможет выбрать тактику по улучшению качества работы классификатора.
Предположим, вы надеетесь построить кошачий распознователь, имеющий 5% ошибок. На текущий момент ошибка вашего классификатора на тренировочной выборке 15%, на валидационной выборке 16%. В таком случае добавление тренировочных данных вряд ли поможет существенно увеличить качество. Вы должны сконцентрироваться на других изменениях системы. В действительности, добавление большего количества примеров в вашу тренировочную выборку только усложнит для вашего алгоритма получение хорошего результата на этой выборке (почему так получается будет объяснено в следующих главах).
Если доля ваших ошибок на тренировочной выборке составляет 15% (что соответствует точности 85%), но вашей целью является доля ошибок в 5% (95% точность), тогда прежде всего нужно улучшить качество работы вашего алгоритма на тренировочной выборке. Качество работы алгоритма на валидационной / тестовой выборках обычно хуже, чем качество его работы на выборке для обучения (на тренировочной выборке). Нужно понимать, что те подходы, которые привели вас к точности, не превышающей 85% на примерах, с которыми ваш алгоритм знаком, не позволят получить точность в 95% на примерах, которые этот алгоритм даже не видел.
Предположим, как указано выше, доля ошибок вашего алгоритма составляет 16% (точность составляет 84%) на валидационной выборке. Мы должны разбить ошибку в 16% на два компонента:
- Первый, доля ошибок алгоритма на тренировочной выборке. В данном примере это 15%. Мы неофициально называть его смещением (bias).
- Второй, насколько хуже алгоритм работает на валидационной (или тестовой) выборке, чем на тренировочной. В нашем примере, на 1% хуже на валидационной выборке, чем на тренировочной. Будем так же неофициально считать его разбросом (variance) алгоритма.
замечание автора В статистике присутствует более точное определение для смещения и разброса (систематической и случайной ошибок), но нас это не должно тревожить. Грубо говоря, будем считать, что смещение — это ошибка вашего алгоритма на вашей тренировочной выборке, когда вы имеете очень большую тренировочную выборку. Разброс — это насколько хуже алгоритм работает на тестовой выборке по сравнению с тренировочной при тех же настройках параметров. Если использовать среднеквадратичную ошибку, то можно записать формулы, определяющие эти две величины и доказать, что общая ошибка равна сумме смещения и разброса (сумме случайных и систематических погрешностей). Но для наших целей улучшения алгоритмов в задачах машинного обучения, достаточно неформального определения смещения и разброса.
Некоторые изменения при обучении алгоритма влияют на первый компонент ошибки — на смещение ( bias ) и улучшают выполнение алгоритма на тренировочной выборке. Некоторые изменения влияют на второй компонент — на разброс ( variance ) и помогают лучше обобщить работу алгоритма на валидационную и тестовую выборки. Для выбора наиболее эффективных изменений, которые нужно внести в систему, крайне полезно понимать, как каждый из этих двух компонентов ошибки влияет на общую ошибку системы.
замечание автора: Так же есть некоторые подходы, которые одновременно уменьшают смещение и разброс, внося существенные изменения в архитектуру системы. Но их, как правило, сложнее найти и реализовать
Для выбора наиболее эффективных изменений, которые нужно внести в систему, крайне полезно понимать, как каждый из этих двух компонентов ошибки влияет на общую ошибку системы.
Развитие интуиции в понимании, какой вклад в ошибку вносит Смещение, а какой Разброс, поможет вам эффективно выбирать пути улучшения вашего алгоритма.
21 Примеры классификации ошибок
Рассмотрим нашу задачу по классификации кошек. Идеальный классификатор (например, человек) может достичь превосходного качества выполнения этой задачи.
Предположим, что качество работы нашего алгоритма следующее:
- Ошибка на тренировочной выборке = 1%
- Ошибка на валидационной выборке = 11%
Какая проблема у этого классификатора? Применив определения из предыдущей главы, мы оценим смещение в 1% и разброс в 10% (=11% — 1%). Таким образом, у нашего алгоритма большой разброс. Классификатор имеет очень низкую ошибку на тренировочной выборке, но не может обобщить результаты обучения на валидационную выборку. Другими словами, мы имеем дело с переобучением (overfitting).
Теперь рассмотрим такую ситуацию:
- Ошибка на тренировочной выборке = 15%
- Ошибка на валидационной выборке = 16%
Тогда мы оценим смещение в 15% и разброс в 1%. Этот классификатор плохо обучился на тренировочной выборке, при этом его ошибка на валидационной выборке чуть больше, чем на тренировочной. Таким образом этот классификатор имеет большое смещение, но маленький разброс. Можно сделать вывод, что этот алгоритм недообучился (underfitting).
Еще рассмотрим такое распределение ошибок:
- Ошибка на тренировочной выборке = 15%
- Ошибка на валидационной выборке = 30%
В этом случае смещение 15% и разброс тоже 15%. У данного классификатора высокие и смещение и разброс: он плохо работает на тренировочной выборке, имея высокое смещение, и его качество на валидационной выборке намного хуже, чем на тренировочной, т.е. разброс тоже велик. Данный случай трудно описать в терминах переобучения/недообучения, этот классификатор одновременно и переобучился и недообучился.
И наконец рассмотрим такую ситуацию:
- Ошибка на тренировочной выборке = 0.5%
- Ошибка на валидационной выборке = 1%
Это отлично работающий классификатор, у него низкие и смещение и разброс. Поздравим инженеров с достижением прекрасного результата!
22 Сравнение с оптимальной долей ошибок
В нашем примере по распознаванию кошек, идеальной долей ошибок является уровень, доступный «оптимальному» классификатору и этот уровень близок к 0%. Человек, рассматривающий картинку почти всегда способен распознать, присутствует ли на картинке кошка или нет и мы можем надеяться, что рано или поздно машина будет делать это так же хорошо.
Но есть и более сложные задачи. Например, представьте, что вы разрабатываете систему распознавания речи, и обнаружили, что 14% аудио записей имеют столько фонового шума или настолько неразборчивую речь, что даже человек не может разобрать, что там было сказано. В этом случае даже самая «оптимальная» система распознавания речи может иметь ошибку в районе 14%.
Допустим в приведенной задаче по распознаванию речи наш алгоритм достиг следующих результатов:
- Ошибка на тренировочной выборке = 15%
- Ошибка на валидационной выборке = 30%
Качество работы классификатора на тренировочной выборке уже близко к оптимальному, имеющему долю ошибок в 14%. Таким образом, в данном случае у нас не так много возможностей для уменьшения смещения (улучшения работы алгоритма на тренировочной выборке). Однако, не получается обобщить работу этого алгоритма на валидационную выборку, поэтому есть большое поле для деятельности по уменьшению разброса.
Этот случай похож на третий пример из предыдущей главы, в которой ошибка на тренировочной выборке так же равна 15% и ошибка на валидационной выборке 30%. Если оптимальная доля ошибки находится около 0%, тогда ошибка на тренировочной выборке в 15% дает большое пространство для работ по улучшению алгоритма. При таком предположении, усилия, направленные на уменьшение смещения в работе алгоритма могут быть весьма плодотворны. Но если оптимальная доля ошибок классификации не может быть ниже 14%, то аналогичная доля ошибок алгоритма на тренировочной выборке (т. е. в районе 14-15%) говорит о том, что возможности по уменьшению смещения практически исчерпаны.
Для задач, в которых оптимальная доля ошибок классификации существенно отличается от нуля, можно предложить более подробную структуризацию ошибок. Продолжим рассматривать приведенный выше пример с распознаванием речи, общая ошибка в 30% на валидационной выборке может быть разложена на следующие составные части (таким же образом можно анализировать ошибки на тестовой выборке):
- Оптимальное смещение (unavoidable bias): 14%. Представим, мы решили, что даже возможно наилучшая система распознавания речи в мире, будет иметь долю ошибки в 14%. Мы будем говорить об этом, как о «неустранимой» (unavoidable) части смещения обучающегося алгоритма.
- Устранимое смещение (Avoidable bias): 1%. Эта величина рассчитывается как разница между долей ошибок на тренировочной выборке и оптимальной долей ошибок.
замечание автора: Если данная величина получилась отрицательной, таким образом, ваш алгоритм на тренировочной выборке показывает меньшую ошибку, чем «оптимальная». Это означает, что вы переобучились на тренировочной выборке, ваш алгоритм запомнил примеры (и их классы) тренировочной выборки. В этом случае вы должны сосредоточиться на методах уменьшения разброса, а не на дальнейшем уменьшении смещения.
- Разброс (Variance): 15%. Разница между ошибками на тренировочной выборке и на валидационной выборке
Соотнеся это с нашими прежними определениями, смещение и устранимое смещение связаны следующим образом:
Смещение (bias) = Оптимальное смещение ( «unavoidable bias» ) + Устранимое смещение ( «avoidable bias» )
замечание автора: Эти определения выбраны для лучшего объяснения, как можно улучшить качество работы обучающегося алгоритма. Эти определения отличаются от формальных определений смещения и разброса, принятых в статистике. Технически то, что я определяю, как «Смещение» следовало бы назвать «ошибкой, которая заложена в структуре данных, (ее нельзя выявить и устранить)» и «Устранимое смещение» нужно определить, как «Смещение обучающегося алгоритма, которая превышает оптимальное смещение».
Устранимое смещение (avoidable bias) показывает, насколько хуже качество вашего алгоритма на тренировочной выборке, чем качество «оптимального классификатора».
Основная идея разброса (variance) остается прежней. В теории мы всегда можем уменьшить разброс практически до нуля, тренируясь на достаточно большой тренировочной выборке. Таким образом любой разброс является «устранимым» (avoidable) при наличие достаточно большой выборки, поэтому не может быть такого понятия, как «неустранимый разброс» (unavoidable variance).
Рассмотрим еще один пример, в котором оптимальная ошибка составляет 14% и мы имеем:
- Ошибка на тренировочной выборке = 15%
- Ошибка на валидационной выборке = 16%
В предыдущей главе классификатор с такими показателями мы оценивали, как классификатор с высоким смещением, в текущих условиях мы скажем, что «устранимое смещение» (avoidable bias) составляет 1%, и разброс составляет порядка 1%. Таким образом, алгоритм уже работает достаточно хорошо и почти нет резервов для улучшения качества его работы. Качество работы данного алгоритма всего на 2% ниже оптимального.
Из этих примеров понятно, что знание величины неустранимой ошибки полезно для принятия решения о дальнейших действиях. В статистике оптимальную долю ошибки называют так же ошибкой Байеса ( Bayes error rate ).
Как узнать размер оптимальной доли ошибки? Для задач, с которыми хорошо справляется человек, таких как распознавание изображений или расшифровка аудио клипов, можно попросить асессоров разметить данные, а потом измерить точность человеческой разметки на тренировочной выборке. Это даст оценку оптимальной доли ошибок. Если вы работаете над проблемой, с которой сложно справиться даже человеку (например, предсказать, какой фильм рекомендовать или какую рекламу показать пользователю), в этом случае довольно тяжело оценить оптимальную долю ошибок.
В разделе «Сравнение с человеческим уровнем качества» (Comparing to Human-Level Performance, главы с 33 по 35), я буду более подробно обсуждать процесс сравнения качества работы обучающегося алгоритма с уровнем качества, которого может достигнуть человек.
В последних главах, вы узнали, как оценивать устранимые / неустранимые смещение и разброс, анализируя долю ошибок классификатора на тренировочной и валидационной выборках. В следующей главе будет рассмотрено, как вы можете использовать выводы из такого анализа для принятия решения о том, сконцентрироваться на методах, уменьшающих смещение или на методах, которые уменьшают разброс. Подходы к борьбе со смещением сильно отличаются от подходов к уменьшению разброса, поэтому техники, которые вы должны применять в вашем проекте для улучшения качества, сильно зависят от того, что является проблемой на настоящий момент — большое смещение или большой разброс.
Читайте дальше!
23 Устранение смещения и разброса
Приведем простую формулу устранения смещения и разброса:
- Если у вас большое устранимое смещение (avoidable bias), увеличьте сложность вашей модели (например, увеличьте вашу нейронную сеть, добавив слоев или (и) нейронов)
- Если у вас большой разброс, добавьте примеров в вашу тренировочную выборку
Если у вас есть возможность увеличивать размер нейронной сети и безлимитно добавлять данные в тренировочную выборку, это поможет добиться хорошего результата для большого количества задач машинного обучения.
На практике увеличение размера модели в конечном счете вызовет вычислительные сложности, так как обучение очень больших моделей происходит медленно. Также вы можете исчерпать лимит доступных для обучения данных. (Даже во всем Интернете количество изображений с кошками конечно!)
Различные архитектуры моделей алгоритмов, например, различные архитектуры нейронных сетей, будут давать различные значения для смещения и разброса, применительно к вашей задаче. Вал недавних исследований в области глубинного обучения позволил создать большое количество инновационных архитектур моделей нейронных сетей. Таким образом, если вы используете нейронные сети, научная литература может быть прекрасным источником для вдохновения. Также имеется большое количество отличных реализаций алгоритмов в открытых источниках, например на GitHub. Однако, результаты попыток использовать новые архитектуры существенно менее предсказуемые, чем приведенная выше простая формула — увеличивайте размер модели и добавляйте данные.
Увеличение размера модели обычно уменьшает смещение, но оно же может вызвать увеличение разброса, также возрастает риск переобучения. Однако, проблема переобучения встает только тогда, когда вы не используете регуляризацию. Если включить хорошо спроектированный метод регуляризации в модель, обычно удается безопасно увеличить размер модели, не допустив переобучения.
Предположим, вы применяете глубокое обучение, используя L2 регуляризацию или dropout (Замечание переводчика: про Dropout можно почитать, например, здесь: https://habr.com/company/wunderfund/blog/330814/), используя параметры регуляризации, безупречно работающие на валидационной выборке. Если вы увеличите размер модели, обычно качество работы вашего алгоритма остается таким же или вырастает; его существенное снижение маловероятно. Единственная причина, из-за которой приходится отказываться от увеличения размера модели — большие вычислительные издержки.
24 Компромисс между смещением и разбросом
Вы могли слышать о «компромиссе между смещением и разбросом». Среди множества изменений, которые можно внести в обучающиеся алгоритмы, встречаются такие, которые уменьшают смещение и увеличивают разброс или наоборот. В таком случае говорят о «компромиссе» между смещением и разбросом.
Например, увеличение размерам модели — добавление нейронов и (или) слоев нейронной сети, или добавление входных признаков обычно уменьшают смещение, но могут увеличить разброс. Наоборот, добавление регуляризации часто увеличивает смещение, но уменьшает разброс.
На сегодняшний день у нас обычно есть доступ к большому количеству данных и вычислительных мощностей хватает для обучения больших нейронных сетей (для глубокого обучения). Таким образом, проблема компромисса не стоит так остро, и в нашем распоряжении есть много инструментов для уменьшения смещения, не навредив сильно значению разброса и наоборот.
Например, обычно вы можете увеличить размер нейронной сети и настроить регуляриацию таким образом, чтобы уменьшить смещение без заметного увеличения разброса. Добавление данных в тренировочную выборку, так же, как правило, уменьшает разброс, не влияя на смещение.
Если удачно подобрать архитектуру модели, хорошо соответствующую задаче, можно одновременно уменьшить и смещение и разброс. Но выбор такой архитектуры может оказаться сложной задачей.
В следующих нескольких главах, мы обсудим другие специфические техники, направленные на борьбу со смещением и разбросом.
25 Подходы к уменьшению устранимого смещения
Если ваш обучающийся алгоритм страдает большим устранимым смещением, вы можете попробовать следующие подходы:
- Увеличение размеров модели (такие, как количество нейронов и слоев): этот подход уменьшает смещение, таким образом у вас появляется возможность лучше подгонять алгоритм к тренировочной выборке. Если вы обнаружили, что при этом увеличивается разброс, используйте регуляризацию, которая обычно устраняет увеличение разброса.
- Модифицируйте входящие признаки, основываясь на идеях, пришедших при анализе ошибок. Предположим анализ ошибок побудил вас создать новые дополнительные признаки, которые помогают алгоритму избавиться от определенной категории ошибок (в следующих главах мы обсудим этот аспект). Эти новые признаки могут помочь как со смещением, так и с разбросом. В теории добавление новых признаков может увеличить разброс; но если такое случится, вы всегда можете использовать регуляризацию, которая, как правило, помогает справиться с увеличением разброса.
- Уменьшение или отказ от регуляризации (L2 регуляризация, L1 регуляризация, Dropout): этот подход уменьшает устранимое смещение, однако, приводит к росту разброса.
- Модификация архитектуры модели (например, архитектуры нейронной сети) чтобы она больше подходила для вашей задачи: Этот подход влияет как на разброс, так и на смещение
Один не очень полезный метод:
- Добавление данных в тренировочную выборку: Этот подход помогает уменьшать разброс, но обычно не оказывает существенного воздействия на смещение.
26 Анализ ошибок на тренировочной выборке
Только после хорошего качества алгоритма на тренировочной выборке, можно ожидать от него приемлемых результатов на валидационной/тестовой выборках.
В дополнение к методам, описанным ранее, применяемым к большому смещению, я иногда так же переношу анализ ошибок на данные тренировочной выборки, следуя тому же подходу, который использовался при анализе валидационной выборки глазного яблока. Это может помочь, если ваш алгоритм имеет высокое смещение, т. е. если алгоритм не смог хорошо обучиться на тренировочной выборке.
Например, предположим вы разрабатываете систему распознавания речи для какого-то приложения и собрали тренировочную выборку аудио клипов от волонтеров. Если ваша система не работает хорошо на тренировочной выборке, вы можете рассмотреть возможность прослушивания набора, состоящего из 100 примеров, на которых алгоритм отработал плохо для того, чтобы понять основные категории ошибок на тренировочной выборке. Аналогично анализу ошибок на валидационной выборке, вы можеет посчитать ошибки в разрезе категорий:
В этом примере вы могли бы понять, что ваш алгоритм испытывает особенные трудности с тренировочными примерами, имеющих много фонового шума. Таким образом вы можете сфокусироваться на методах, которые позволят ему лучше работать на тренировочных примерах с фоновым шумом.
Вы так же можете повторно проверить, насколько человек может разобрать такие аудио-клипы, дав ему послушать те же записи, что и обучающемуся алгоритму. Если в них настолько много фонового шума, что просто невозможно кому-либо понять, что там говорят, тогда может быть бессмысленно ожидать, что какой-либо алгоритм правильно распознает такое произношение. Мы обсудим в дальнейших главах пользу, которую приносит сравнение качества работы нашего алгоритма с уровнем качества, доступным человеку.
27 Подходы к уменьшению разброса
Если ваш алгоритм страдает от большого разброса, вы можете попробовать следующие подходы:
- Добавить больше данных в тренировочную выборку: Это наиболее простой и реализуемый путь к уменьшению разброса, он работает до тех пор, пока у вас есть возможность существенно увеличивать количество используемых данных и имеется достаточно вычислительных мощностей для их обработки.
- Добавить регуляризацию (L1 регуляризация, L2 регуляризация, dropout): этот подход уменьшает разброс, но увеличивает смещение.
- Добавить раннюю остановку (т. е. остановить градиентный спуск раньше, базируясь на значении ошибки на валидационной выборке): Эта техника уменьшает разброс, но увеличивает смещение. Ранняя остановка сильно напоминает метод регуляризации, поэтому некоторые авторы относят ее к регуляризации.
- Отбор признаков для уменьшения количества/типов входящих признаков: Этот подход может помочь с проблемой разброса, но также может увеличить смещение. Незначительное уменьшение количества признаков (скажем, с 1000 признаков до 900) вряд ли окажет большой эффект на смещение. Существенное уменьшение (скажем от 1000 признаков до 100 или 10 кратное уменьшение) более вероятно окажет существенный эффект, эффект будет увеличиваться до тех пор, пока вы не исключите слишком много полезных признаков. В современном глубинном обучении, когда данных много, происходит отход от тщательного отбора признаков, и сегодня мы скорее всего возьмем все признаки, которые у нас есть и будем на них обучать алгоритм, давая возможность алгоритму самому решить, какие из них использовать, базируясь на большом количестве обучающих примеров. Однако, если ваша тренировочная выборка маленькая, отбор признаков может оказаться очень полезным.
- Уменьшение размера (сложности) модели (такие как количество нейронов / слоев). Используйте с осторожностью! Этот подход может уменьшить разброс и одновременно, возможно, увеличит смещение. Однако, я бы не стал рекомендовать этот подход для уменьшения разброса. Добавление регуляризации обычно приводит к лучшему качеству классификации. Преимуществом уменьшения размера модели является уменьшение вашей потребности в вычислительных мощностях и таким образом ускоряется процесс тренировки моделей. Если увеличение скорости тренировки моделей будет полезным, тогда нужно рассмотреть вариант с уменьшением размера модели. Однако, если вашей задачей является только уменьшение разброса и вы не испытываете дефицита вычислительных мощностей, лучше рассмотреть возможности дополнительной регуляризации.
Здесь я привожу два дополнительных тактических приема, повторяя сказанное в предыдущих главах, применительно к уменьшению смещения:
- Модифицируйте входящие признаки, базируясь на понимании, полученном из анализа ошибок: Скажем, ваша анализ ошибок привел к идеи о том, что можно создать дополнительные признаки, которые помогут алгоритму избавиться от некоторых категорий ошибок. Эти новые признаки помогут уменьшить и разброс и смещение. Теоретически, добавление новых признаков может увеличить разброс; но если это случится, вы всегда можете воспользоваться регуляризацией, которая обычно нивелирует увеличение разброса.
- Модифицируйте архитектуру модели (например, архитектуру нейронной сети) делая ее более подходящей для вашей задачи: Этот подход может уменьшить и смещение и разброс.
продолжение