смещение и разброс машинное обучение

Машинное обучение для факультета математики Записки лекций

Илья Щуров (НИУ ВШЭ)

3 Шум, смещение и разброс

3.1 Элементы статистики

3.1.1 Выборки

3.1.2 Статистические оценки и их свойства

3.1.2.1 Выборочное среднее

Рассмотрим функцию A v e от выборки, называемую выборочным средним. Это просто среднее арифметическое:

Соотношение (3.1) является частным случаем утверждения о состоятельности оценки. Общее определение выглядит так.

Грубо говоря, состоятельность означает, что чем больше размер выборки, тем лучше наша оценка приближает истинное значение параметра распределения.

Общее определение звучит так:

3.1.2.2 Выборочная дисперсия

Оказывается, что нет.

3.1.3 Дисперсия оценок

3.2 Напоминание: постановка задачи

3.3 Ожидаемая ошибка

С помощью леммы 1 из предыдущей лекции можно переписать (3.5) следующим образом:

3.4 Разложение ожидаемой ошибки

3.5 Пример: метод k ближайших соседей (k-NN)

В целом, увеличение k приводит к тому, что при вычислении f ( x ) в оценку для среднего попадает больше более далёких точек. Это приводит к уменьшению разброса (потому что точек больше), но увеличению смещения (потому что участвуют более далёкие точки). Это означает, что ни слишком маленькие, ни слишком большие значения k скорее всего не будут оптимальными. На практике k находится путём подбора с помощью кросс-валидации (об этом подробнее на семинаре).

Это пример так называемого bias—variance tradeoff: модель может быть либо очень гибкой, но при этом слишком чувствительной к данным (маленькое смещение, большой разброс), либо слишком грубой, но зато устойчивой (большое смещение, маленький разброс).

Источник

Нежное введение в компромисс с отклонениями в машинном обучении

Дата публикации 2016-03-18

Алгоритмы контролируемого машинного обучения лучше всего понять через призму компромиссов между отклонениями.

В этом посте вы узнаете о компромиссе смещения отклонений и о том, как его использовать для лучшего понимания алгоритмов машинного обучения и повышения производительности ваших данных.

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

Обзор смещения и дисперсии

В контролируемом машинном обучении алгоритм изучает модель на основе данных обучения.

Цель любого контролируемого алгоритма машинного обучения состоит в том, чтобы наилучшим образом оценить функцию отображения (f) для выходной переменной (Y) с учетом входных данных (X). Функция отображения часто называется целевой функцией, потому что это та функция, которую данный контролируемый алгоритм машинного обучения стремится аппроксимировать.

Ошибка предсказания для любого алгоритма машинного обучения может быть разбита на три части:

Неприводимая ошибка не может быть уменьшена независимо от того, какой алгоритм используется. Это ошибка, возникающая из-за выбранной структуры задачи, и может быть вызвана такими факторами, как неизвестные переменные, которые влияют на отображение входных переменных в выходную переменную.

В этом посте мы сосредоточимся на двух частях, на которые мы можем влиять с помощью наших алгоритмов машинного обучения. Ошибка смещения и ошибка дисперсии.

Получите БЕСПЛАТНУЮ карту алгоритмов Mind

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

Я создал удобную карту разума из 60+ алгоритмов, организованных по типу.

Загрузите его, распечатайте и используйте.

Также получите эксклюзивный доступ к алгоритмам машинного обучения по электронной почте мини-курса.

Ошибка смещения

Как правило, параметрические алгоритмы имеют высокий уклон, что делает их быстрыми для изучения и более простыми для понимания, но в целом менее гибкими. В свою очередь, они имеют более низкую прогнозирующую производительность по сложным задачам, которые не отвечают упрощающим допущениям смещения алгоритмов.

Примерами алгоритмов машинного обучения с низким смещением являются: деревья решений, k-ближайшие соседи и машины опорных векторов.

Примеры алгоритмов машинного обучения с большим смещением включают: линейную регрессию, линейный дискриминантный анализ и логистическую регрессию.

Ошибка отклонения

Целевая функция оценивается по данным обучения с помощью алгоритма машинного обучения, поэтому следует ожидать, что алгоритм будет иметь некоторую дисперсию. В идеале, он не должен слишком сильно меняться от одного набора обучающих данных к другому, а это означает, что алгоритм хорош для выделения скрытого базового отображения между входными и выходными переменными.

Алгоритмы машинного обучения, которые имеют высокую дисперсию, сильно зависят от специфики данных обучения. Это означает, что специфика обучения влияет на количество и типы параметров, используемых для характеристики функции отображения.

Как правило, непараметрические алгоритмы машинного обучения, которые имеют большую гибкость, имеют высокую дисперсию. Например, деревья решений имеют высокую дисперсию, которая даже выше, если деревья не обрезать перед использованием.

Примеры алгоритмов машинного обучения с малой дисперсией: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.

Примеры алгоритмов машинного обучения с высокой дисперсией включают: деревья решений, k-ближайших соседей и машины опорных векторов.

Отклонение от отклонений

Вы можете увидеть общую тенденцию в приведенных выше примерах:

Параметризация алгоритмов машинного обучения часто является битвой, чтобы сбалансировать смещение и дисперсию.

Ниже приведены два примера настройки компромисса смещения для конкретных алгоритмов:

Нельзя избежать взаимосвязи между предвзятостью и дисперсией в машинном обучении.

Существует компромисс между этими двумя проблемами и выбранными вами алгоритмами, а также способ, которым вы выбираете их настройку, находят различные балансы в этом компромиссе для вашей проблемы.

В действительности, мы не можем вычислить реальные смещения и погрешности отклонения, потому что мы не знаем фактическую основную целевую функцию. Тем не менее, в качестве основы, предвзятость и дисперсия предоставляют инструменты для понимания поведения алгоритмов машинного обучения при достижении прогнозирующей эффективности.

Дальнейшее чтение

В этом разделе перечислены некоторые рекомендуемые ресурсы, если вы хотите узнать больше о смещении, дисперсии и компромиссе смещения.

Резюме

В этом посте вы обнаружили смещение, дисперсию и компромисс смещения для алгоритмов машинного обучения.

Теперь вы знаете, что:

Есть ли у вас какие-либо вопросы по поводу смещения, дисперсии или компромисса смещения. Оставьте комментарий и задайте свой вопрос, и я сделаю все возможное, чтобы ответить.

Источник

Понимание компромисса смещения

Дата публикации May 21, 2018

Всякий раз, когда мы обсуждаем прогнозирование модели, важно понимать ошибки прогнозирования (смещение и дисперсия). Существует компромисс между способностью модели минимизировать смещение и дисперсию. Получение правильного понимания этих ошибок поможет нам не только построить точные модели, но и избежать ошибки переоснащения и недостаточной подгонки.

Итак, давайте начнем с основ и посмотрим, как они влияют на наши модели машинного обучения.

Что такое уклон?

Что такое дисперсия?

Математически

Пусть переменная, которую мы пытаемся предсказать как Y, а другие ковариаты как X. Мы предполагаем, что между ними существует такая связь, что

Мы сделаем модель f ^ (X) для f (X), используя линейную регрессию или любую другую технику моделирования.

Таким образом, ожидаемая квадратная ошибка в точке х

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

Err (x) может быть далее разложен как

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

Смещение и дисперсия, используя диаграмму «бычий глаз»

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

В контролируемом обучении,underfittingпроисходит, когда модель не может захватить базовый шаблон данных. Эти модели обычно имеют высокий уклон и низкую дисперсию. Это происходит, когда у нас очень мало данных для построения точной модели или когда мы пытаемся построить линейную модель с нелинейными данными. Кроме того, такого рода модели очень просты для захвата сложных моделей в данных, таких как линейная и логистическая регрессия.

В контролируемом обучении,переобученияпроисходит, когда наша модель фиксирует шум вместе с базовым шаблоном в данных. Это происходит, когда мы много тренируемся в нашей модели из-за шумного набора данных. Эти модели имеют низкий уклон и высокую дисперсию. Эти модели очень сложны, как деревья решений, которые склонны к переоснащению.

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

Почему Bias Variance Tradeoff?

Если наша модель слишком проста и имеет очень мало параметров, то она может иметь высокое смещение и низкую дисперсию. С другой стороны, если наша модель имеет большое количество параметров, она будет иметь высокую дисперсию и низкое смещение. Таким образом, мы должны найти правильный / хороший баланс, не перегружая и не подбирая данные.

Этот компромисс между сложностью и является причиной компромисса между смещением и дисперсией. Алгоритм не может быть более сложным и менее сложным одновременно.

Общая ошибка

Чтобы построить хорошую модель, нам нужно найти хороший баланс между смещением и дисперсией, чтобы минимизировать общую ошибку.

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

Оптимальный баланс смещения и дисперсии никогда не будет соответствовать или не соответствовать модели.

Поэтому понимание предвзятости и дисперсии имеет решающее значение для понимания поведения моделей прогнозирования.

Источник

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 30 — 32

Предположим, ваша кривая ошибок на валидационной выборке выглядит следующим образом:
смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

Мы уже говорили, что если ошибка алгоритма на валидационной выборке вышла на плато, вы вряд ли сможете достигнуть желаемого уровня качества просто добавляя данные.

Но трудно предположить, как будет выглядеть экстраполяция кривой зависимости качества алгоритма на валидационной выборке (Dev error) при добавлении данных. А если валидационная выборка маленькая, то ответить на этот вопрос еще сложнее из-за того, что кривая может быть зашумлена (иметь большой разброс точек).

Предположим, мы добавили на наш график кривую зависимости величины ошибки от количества данных тестовой выборки и получили следующую картину:

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

Посмотрев на эти две кривые можно быть абсолютно уверенными, что добавление новых данных само по себе не даст желаемого эффекта (не позволит увеличить качество работы алгоритма). Откуда можно сделать такой вывод?
Давайте вспомним следующие два замечания:

Рассмотрение обеих кривых зависимостей ошибки алгоритма от количества данных в валидационной и в тренировочной выборках на одном графике, позволяет более уверенно экстраполировать кривую ошибки обучающегося алгоритма от количества данных в валидационной выборке.

Допустим, что у нас есть оценка желаемого качества работы алгоритма в виде оптимального уровня ошибок работы нашей системы. В этом случае приведенные выше графики являются иллюстрацией стандартного «хрестоматийного» случая как выглядит кривая обучения с высоким уровнем устранимого смещения. На наибольшем размере тренировочной выборки, предположительно, соответствующему всем данным, которые есть в нашем распоряжении, наблюдается большой разрыв между ошибкой алгоритма на тренировочной выборке и желаемым качеством работы алгоритма, что указывает на высокий уровень избегаемого смещения. Кроме того, разрыв между ошибкой на тренировочной выборке и ошибкой на валидационной выборке маленький, что свидетельствует о небольшом разбросе.

Ранее мы обсуждали ошибки алгоритмов, обученных на тренировочной и валидационной выборках только в самой правой точке выше приведенного графика, которая соответствует использованию всех имеющихся у нас тренировочных данных. Кривая зависимостей ошибки от количества данных тренировочной выборки, построенная для разных размеров выборки, используемой для обучения, дает нам более полное представление о качестве работы алгоритма, обученного на различных размерах тренировочной выборки.

31. Интерпретация кривой обучения: остальные случаи

Рассмотрим кривую обучения:
смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

На этом графике зафиксировано высокое смещение, высокий разборос или оба сразу?

Синяя кривая ошибки на тренировочных данных относительно низкая, красная кривая ошибки на валидационных данных значительно выше синей ошибки на тренировочных данных. Таким образом, в данном случае смещение маленькое, но разброс большой. Добавление большего количества тренировочных данных, возможно, поможет закрыть разрыв между ошибкой на валидационной выборке и ошибкой на тренировочной выборке.

А теперь рассмотрим вот этот график:

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

В этом случае ошибка на тренировочной выборке большая, она существенно выше соответствующей желаемому уровню качества работы алгоритма. Ошибка на валидационной выборке так же существенно выше ошибки на тренировочной выборке. Таким образом имеем дело с одновременно большими смещением и разбросом. Вы должны искать пути уменьшения и смещения и разброса в работе вашего алгоритма.

32. Построение кривых обучения

Предположим у вас очень маленькая тренировочная выборка, состоящая всего из 100 примеров. Вы тренируете ваш алгоритм, используя случайно выбранную подвыборку из 10 примеров, затем из 20 примеров, затем из 30 и так до 100, увеличивая количество примеров с интервалом, состоящим из десяти примеров. Затем используя эти 10 точек вы строите вашу кривую обучения. Вы можете обнаружить, что кривая выглядит зашумленной (значения выше или ниже ожидаемых) на меньших размерах тренировочных выборкок.

Когда вы тренируете алгоритм всего лишь на 10 случайно выбранных примерах, вам может не повезти и это окажется особенно «плохая» тренировочная подвыборка с большей долей неоднозначных / неверно размеченных примеров. Или, наоборот, вам может попасться особенно «хорошая» тренировочная подвыборка. Наличии маленькой тренировочной выборки подразумевает, что значение ошибок на валидационной и тренировочных выборках могут подвергаться случайным флуктуациям.

Если данные, используемые для вашего приложения с использованием машинного обучения сильно смещены в сторону одного класса (как при задаче классификации котов, в которой доля негативных примеров намного больше, чем доля положительных), или если мы имеем дело с большим количеством классов (такой, как распознавание 100 различных видов животных), тогда шанс получить особенно «нерепрезентативную» или плохую тренировочную выборку также возрастает. Например, если 80% ваших примеров являются негативными примерами (y=0), и только 20% — это позитивные примеры (y=1), тогда велик шанс, что тренировочная подвыборка из 10 примеров будет содержать только негативные примеры, в этом случае очень сложно получить от обучаемого алгоритма что-то разумное.

В случае, если из-за зашумленности кривой обучения на тренировочной выборке трудно сделать оценку трендов, можно предложить два следующих решения:

Вместо обучения только одной модели на 10 тренировочных примеров, выбором с заменой несколько (скажем от 3 до 10) различных случайных тренировочных подвыборок из первоначальной выборки, состоящей из 100 примеров. Обучите модель на каждой из них и посчитайте для каждой из этих моделей ошибку на валидационной и тренировочной выборке. Посчитайте и нанесите на график среднюю ошибку на тренировочной и на валидационной выборке.

Замечание автора: Выборка с заменой означает следующее: случайно выбираем первые 10 различных примеров из 100, чтобы сформировать первую тренировочную подвыборку. Затем, чтобы сформировать вторую тренировочную подвыборку, снова снова возьмем 10 примеров, но без учета тех, которые выбраны в первой подвыборке (снова из всей сотни примеров). Таким образом, один конкретный пример может оказаться в обоих подвыборках. Это отличает выборку с заменой от выборки без замены, в случае выборки без замены, вторая тренировочная подвыборка выбиралась бы только из 90 примеров, которые не попали в первую подвыборку. На практике способ отбора примеров с заменой или без не должен играть большого значения, но отбор примеров с заменой является обычной практикой.

Если ваша тренировочная выборка смещена в сторону одного из классов, или если в нее входит много классов, выберете «сбалансированную» подвыборку, состоящую из 10 тренировочных примеров, выбранных случайным образом из 100 примеров выборки. Например, вы можете быть уверенными, что 2/10 примеров — положительные и 8/10 отрицательные. Если обобщить, то вы можете быть уверены, что доля примеров каждого класса в наблюдаемом наборе данных максимально приближена к их доле в первоначальной тренировочной выборке.

Я бы не стал заморачиваться ни с одним из этих методов до тех пор, пока построение графиков кривых ошибок не приведет к заключению, что эти кривые чрезмерно зашумлены, что не позволяет увидеть понятные тренды. Если у вас большая тренировочная выборка — скажем порядка 10 000 примеров и распределение ваших классов не очень сильно смещенно, возможно вам и не понадобятся эти методы.

Наконец, построение кривой обучения может быть дорогостоящим с вычислительной точки зрения: Например, нужно обучить десять моделей, в первой 1000 примеров, во второй 2000, и так вплоть до последней, содержащей 10 000 примеров. Обучение модели на небольших количествах данных проходит намного быстрее, чем обучение модели на больших выборках. Таким образом, вместо того чтобы равномерно распределять размеры тренировочных подвыборок по линейной шкале, как описано выше (1000, 2000, 3000, …, 10000), вы можете тренировать модели с нелинейным увеличением количества примеров, например, 1000, 2000, 4000, 6000 и 10000 примеров. Это все равно должно дать вам четкое понимание тренда засивисимости качества модели от количества обучающих примеров в кривых обучения. Конечно, этот прием актуален только в том случае, если вычислительные затраты на обучение дополнительных моделей велики.

Источник

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 40 и 41

Предположим, что вы применяете ML в условиях, когда распределение обучающей и валидационной выборок отличаются. Например, обучающая выборка содержит изображения из Интернета + изображения из мобильного приложения, а тестовая и валидационная выборки только из мобильного приложения. При этом алгоритм работает не очень хорошо: он имеет гораздо более высокую ошибку на валидационной и тестовой выборках, чем хотелось бы. Приведем некоторые возможные причины:

Например, предположим, человеческий уровень распознавания кошек является практически идеальным. Ваш алгоритм относительно него показывает:

В этом случае явно присутствует проблема несоответствия распределений данных. Для ее решения, можно попытаться приблизить распределение обучающей выборки к распределениям валидационной и тестовой. Ниже будут приведены некоторые идеи, как это можно сделать.

Чтобы определить, какое влияние оказывает каждая из трех проблем, описанных выше, будет полезна еще одна выборка. Вместо того, чтобы предоставлять алгоритму все имеющиеся примеры из обучающей выборки, можно разделить ее на два подмножества: обучающую выборку, используемую для обучения алгоритма и отдельную выборку, которую можно назвать «выборка для валидации обучающей», эту выборку не нужно показывать алгоритму при его обучении.

Теперь у вас есть четыре выборки данных:

Вооружившись этими четырьмя выборками, можно оценить:

Большинство рекомендаций из 5-7 глав по выбору размера валидационной выборки также применимы к принятию решения о размере «выборки для валидации обучающей».

41. Выявление смещения, разброса и несоответствия данных

Допустим люди достигают почти идеального качества (ошибка ≈0%) в задаче обнаружения кошек, и, таким образом, оптимальный уровень ошибки для этой задачи составляет около 0%.

Предположим, у нашего алгоритма:

О чем это говорит? Можно сделать вывод, что мы имеем дело с высоким разбросом. Методы уменьшения разброса, описанные ранее, должны помочь повысить качество работы алгоритма.
Теперь предположим, что у алгоритма следующие показатели:

Это говорит о том, что у алгоритма высокое избегаемое смешение на обучающей выборке. Т.е. алгоритм плохо работает уже на данных из обучающей выборки. Подходы к уменьшению смещения должны помочь в этом случае.

В обоих приведенных примерах алгоритм страдает только высоким избегаемым смещением или высоким разбросом. Однако, алгоритм может иметь как высокое избегаемое смещения, высокий разброс, так и проблемы с несоответствием данных в выборках.
Рассмотрим еще такую ситуацию:

В данном случае у алгоритма высокое избегаемое смещение и дополнительно мы имеем дело с несоответствием данных. Однако, нет особых проблем с разбросом на обучающей выборке.
Может быть будет проще понять, как различные типы ошибок связаны друг с другом, если представить их в виде таблицы:

смещение и разброс машинное обучение. Смотреть фото смещение и разброс машинное обучение. Смотреть картинку смещение и разброс машинное обучение. Картинка про смещение и разброс машинное обучение. Фото смещение и разброс машинное обучение

Продолжая рассмотрение примера с детектором кошек, расположим на оси Х два разных распределения данных. На оси Y расположим три типа ошибок: ошибка человека, ошибка на примерах, используемых для обучения алгоритма, и ошибка в примерах, на которых алгоритм не обучался. Мы можем заполнить поля значениями различных типов ошибок, которые мы определили в предыдущей главе.

При желании можно заполнить оставшиеся два поля в этой таблице. Можно заполнить поле в верхнем правом углу (качество человека на изображениях, полученных из мобильного приложения), например, попросив некоторых подписчиков разметить изображения из вашего мобильного детектора котов и измерить их ошибку. Можно заполнить следующую клетку в таблице, взяв изображения кошек из мобильного приложения (распределение B) и поместив их небольшую часть в обучающую выборку, чтобы нейронная сеть обучалась на нем тоже. Затем нужно измерить ошибку алгоритма на этом подмножестве данных. Заполнение приведенных двух дополнительных клеток таблицы даст понимание того, как алгоритм отрабатывает на этих двух различными распределениях данных (Распределение A и B).

Определив, с какими типами ошибок алгоритм испытывает наибольшие трудности, можно более обосновано решить, следует ли сосредоточиться на уменьшении смещения, уменьшении разброса или нужно озадачиться борьбой с несоответствием данных.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *