Что такое задача регрессии

Линейная регрессия

Линейная регрессия (Linear regression) — это это математическая модель, которая описывает связь нескольких переменных. Модели линейной регрессии представляют собой статистическую процедуру, помогающую прогнозировать будущее. Она применяется в научных сферах и в бизнесе, а в последние десятилетия используется в машинном обучении.

Для чего нужна линейная регрессия

Задача регрессии в машинном обучении — это предсказание одного параметра (Y) по известному параметру X, где X — набор параметров, характеризующий наблюдение.

Как работает линейная регрессия

Возьмем небольшой набор данных. Предположим, что это группа коттеджей, расположенных в одном районе. На оси Х обозначена их площадь, а на оси Y — рыночная стоимость. Чтобы увидеть, как стоимость дома зависит от его площади, построим регрессию.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Это будет простая линейная регрессия с одной переменной. Изменится площадь дома — изменится и стоимость. Для вычисления используем стандартное уравнение регрессии: f (x) = b + m⋅x, где m — это наклон линии, а b — ее сдвиг по оси Y. То есть изменение коэффициентов m и b будет влиять на расположение прямой:

Провести прямую линию через все точки на графике не получится, если они расположены в хаотичном порядке. Поэтому с помощью линейной регрессии определяется оптимальный вариант расположения этой прямой. Некоторые точки все равно останутся на расстоянии, но оно должно быть минимальным. Расчет этого минимального расстояния от прямой до каждой точки называется функцией потерь.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Для оценки точности регрессии используют разные метрики, например MSE (от англ. mean squared error — средняя квадратическая ошибка). Чем ниже MSE, тем лучше модель.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

В первом случае MSE будет равна 0,17, во втором — 0,08, а в третьем — 0,02. Получается, что третья прямая лучше всего показывает зависимость цены дома от его площади.

Data Scientist с нуля

Получите востребованные IT-навыки за один год и станьте перспективным профессионалом. Мы поможем в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Расчет линейной регрессии в Python

Построим регрессию, чтобы узнать, как кассовые сборы фильма зависят от бюджета, который вложили в его производство.

Для расчета понадобится csv-файл, который содержит информацию о бюджетах и сборах 5 034 фильмов, которые когда-то выходили в прокат. Эти данные станут базой для исследования.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Построим модель линейной регрессии с помощью Python. Для этого нужно импортировать несколько библиотек:

Модель линейной регрессии, которую нужно будет обучить, импортируется с помощью библиотеки sklearn. В качестве X будет колонка production_budget_usd, а в качестве Y – колонка worldwide_gross_usd.

На основе этих данных определяется нужный наклон прямой и расположение относительно осей координат. Это и будет нужной линейной регрессией, по которой можно предсказать сборы собственного фильма, выбрав подходящий бюджет.

В итоге получится график того, как соотносятся бюджеты и кассы у фильмов в списке. Каждая точка — это отдельная кинолента. На оси Х показаны затраты на производство, а на оси У — сколько она заработала. Теперь через эти точки нужно провести прямую так, чтобы она была максимально близка ко всем точкам на графике.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Множественная линейная регрессия

В жизни кассовые сборы кино зависят не от одной переменной, а от совокупности разных факторов: популярности жанра, режиссера, каста актеров и затрат на промокампанию. Если рассчитать все факторы, влияющие на сборы, то уравнение изменится:

Стало f(x) = b + m1*x1 + … + mn*xn

Каждый коэффициент в нем показывает важность признаков. То есть множественная регрессия демонстрирует, как каждый параметр влияет на расположение прямой, и выбирает оптимальный вариант точно так же, как и линейная — с помощью функции потерь.

Data Scientist с нуля

Получите востребованные IT-навыки за один год и станьте перспективным профессионалом. Мы поможем в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Источник

Что такое регрессионный анализ?

Регрессионный анализ — это набор статистических методов оценки отношений между переменными. Его можно использовать для оценки степени взаимосвязи между переменными и для моделирования будущей зависимости. По сути, регрессионные методы показывают, как по изменениям «независимых переменных» можно зафиксировать изменение «зависимой переменной».

Зависимую переменную в бизнесе называют предиктором (характеристика, за изменением которой наблюдают). Это может быть уровень продаж, риски, ценообразование, производительность и так далее. Независимые переменные — те, которые могут объяснять поведение выше приведенных факторов (время года, покупательная способность населения, место продаж и многое другое).Регрессионный анализ включает несколько моделей. Наиболее распространенные из них: линейная, мультилинейная (или множественная линейная) и нелинейная.

Как видно из названий, модели отличаются типом зависимости переменных: линейная описывается линейной функцией; мультилинейная также представляет линейную функцию, но в нее входит больше параметров (независимых переменных); нелинейная модель — та, в которой экспериментальные данные характеризуются функцией, являющейся нелинейной (показательной, логарифмической, тригонометрической и так далее).

Чаще всего используются простые линейные и мультилинейные модели.

Регрессионный анализ предлагает множество приложений в различных дисциплинах, включая финансы.

Рассмотрим поподробнее принципы построения и адаптации результатов метода.

Линейный регрессионный анализ основан на шести фундаментальных предположениях:

Простая линейная модель выражается с помощью следующего уравнения:

Источник

Основы анализа данных

Регрессионный анализ

Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными.

Последовательность этапов регрессионного анализа

Рассмотрим кратко этапы регрессионного анализа.

Задачи регрессионного анализа

Установление формы зависимости.

Характер и форма зависимости между переменными могут образовывать следующие разновидности регрессии:

Однако описанные разновидности обычно встречаются не в чистом виде, а в сочетании друг с другом. В таком случае говорят о комбинированных формах регрессии.

Определение функции регрессии.

Вторая задача сводится к выяснению действия на зависимую переменную главных факторов или причин, при неизменных прочих равных условиях, и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессии определяется в виде математического уравнения того или иного типа.

Оценка неизвестных значений зависимой переменной.

Решение этой задачи сводится к решению задачи одного из типов:

Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.

Рассмотрим некоторые предположения, на которые опирается регрессионный анализ.

Предположение линейности, т.е. предполагается, что связь между рассматриваемыми переменными является линейной. Так, в рассматриваемом примере мы построили диаграмму рассеивания и смогли увидеть явную линейную связь. Если же на диаграмме рассеивания переменных мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа.

При использовании регрессионного анализа следует учитывать его основное ограничение. Оно состоит в том, что регрессионный анализ позволяет обнаружить лишь зависимости, а не связи, лежащие в основе этих зависимостей.

Регрессионный анализ дает возможность оценить степень связи между переменными путем вычисления предполагаемого значения переменной на основании нескольких известных значений.

Уравнение регрессии выглядит следующим образом: Y=a+b*X

В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.

Таблица 8.3а. Регрессионная статистика

Регрессионная статистика
Множественный R0,998364
R-квадрат0,99673
Нормированный R-квадрат0,996321
Стандартная ошибка0,42405
Наблюдения10

В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.

В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.

Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.

В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).

Таблица 8.3б. Коэффициенты регрессии

КоэффициентыСтандартная ошибкаt-статистика
Y-пересечение2,6945454550,331768788,121757129
Переменная X 12,3054545450,0466863449,38177965
* Приведен усеченный вариант расчетов

Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б. Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).

Исходя из расчетов, можем записать уравнение регрессии таким образом:

Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).

Таблица 8.3в. Остатки

НаблюдениеПредсказанное YОстаткиСтандартные остатки
19,610909091-0,610909091-1,528044662
27,305454545-0,305454545-0,764022331
311,916363640,0836363640,209196591
414,221818180,7781818181,946437843
516,527272730,4727272731,182415512
618,832727270,1672727270,418393181
721,13818182-0,138181818-0,34562915
823,44363636-0,043636364-0,109146047
925,74909091-0,149090909-0,372915662
1028,05454545-0,254545455-0,636685276

Следует учитывать, что рассматриваемый пример является достаточно простым и далеко не всегда возможно качественное построение регрессионной прямой линейного вида.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Осталась нерассмотренной задача оценки неизвестных будущих значений зависимой переменной на основании известных значений независимой переменной, т.е. задача прогнозирования.

Имея уравнение регрессии, задача прогнозирования сводится к решению уравнения Y= x*2,305454545+2,694545455 с известными значениями x. Результаты прогнозирования зависимой переменной Y на шесть шагов вперед представлены в таблице 8.4.

Таблица 8.4. Результаты прогнозирования переменной Y

xY(прогнозируемое)
1128,05455
1230,36
1332,66545
1434,97091
1537,27636
1639,58182

Таким образом, в результате использования регрессионного анализа в пакете Microsoft Excel мы:

Если функция регрессии определена, интерпретирована и обоснована, и оценка точности регрессионного анализа соответствует требованиям, можно считать, что построенная модель и прогнозные значения обладают достаточной надежностью.

Прогнозные значения, полученные таким способом, являются средними значениями, которые можно ожидать.

Выводы

Источник

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиитакая, что сумма квадратов разностей Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессииминимальна.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии, как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиивокруг регрессии Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессииявляется дисперсия.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

В матричном виде это выгладит

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Случайная величина Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессииможет быть интерпретирована как сумма из двух слагаемых:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

В этой формуле Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии— коэффициент взаимной детерминации между Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиии остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

Перейдем теперь к расшифровке полученных результатов.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Источник

Базовые принципы машинного обучения на примере линейной регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессииЗдравствуйте, коллеги! Это блог открытой русскоговорящей дата саентологической ложи. Нас уже легион, точнее 2500+ человек в слаке. За полтора года мы нагенерили 800к+ сообщений (ради этого слак выделил нам корпоративный аккаунт). Наши люди есть везде и, может, даже в вашей организации. Если вы интересуетесь машинным обучением, но по каким-то причинам не знаете про Open Data Science, то возможно вы в курсе мероприятий, которые организовывает сообщество. Самым масштабным из них является DataFest, который проходил недавно в офисе Mail.Ru Group, за два дня его посетило 1700 человек. Мы растем, наши ложи открываются в городах России, а также в Нью-Йорке, Дубае и даже во Львове, да, мы не воюем, а иногда даже и употребляем горячительные напитки вместе. И да, мы некоммерческая организация, наша цель — просвещение. Мы делаем все ради искусства. (пс: на фотографии вы можете наблюдать заседание ложи в одном из тайных храмов в Москве).

Мне выпала честь сделать первый пост, и я, пожалуй, отклонюсь от своей привычной нейросетевой тематики и сделаю пост о базовых понятиях машинного обучения на примере одной из самых простых и самых полезных моделей — линейной регрессии. Я буду использовать язык питон для демонстрации экспериментов и отрисовки графиков, все это вы с легкостью сможете повторить на своем компьютере. Поехали.

Формализмы

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Машинное обучение — это подраздел искусственного интеллекта, в котором изучаются алгоритмы, способные обучаться без прямого программирования того, что нужно изучать. Линейная регрессия является типичным представителем алгоритмов машинного обучения. Для начала ответим на вопрос «а что вообще значит обучаться?». Ответ на этот вопрос мы возьмем из книги 1997 года (стоит отметить, что оглавление этой книги не сильно отличается от современных книг по машинному обучению).

Говорят, что программа обучается на опыте Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессииотносительно класса задач Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиив смысле меры качества Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии, если при решении задачи Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиикачество, измеряемое мерой Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии, возрастает при демонстрации нового опыта Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии.

Можно выделить следующие задачи Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии, решаемые машинным обучением: обучение с учителем, обучение без учителя, обучение с подкреплением, активное обучение, трансфер знаний и т.д. Регрессия (как и классификация) относится к классу задач обучения с учителем, когда по заданному набору признаков наблюдаемого объекта необходимо спрогнозировать некоторую целевую переменную. Как правило, в задачах обучения с учителем, опыт Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиипредставляется в виде множества пар признаков и целевых переменных: Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии. В случае линейной регрессии признаковое описание объекта — это действительный вектор Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии, а целевая переменная — это скаляр Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии. Самой простой мерой качества Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиидля задачи регрессии является Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии, где Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии— это наша оценка реального значения целевой переменной.

У нас есть задача, данные и способ оценки программы/модели. Давайте определим, что такое модель, и что значит обучить модель. Предиктивная модель – это параметрическое семейство функций (семейство гипотез):

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Получается, что алгоритм обучения — это отображение из набора данных в пространство гипотез. Обычно процесс обучения с учителем состоит из двух шагов:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Но, к сожалению, такой интеграл не посчитать, т.к. распределение Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиинеизвестно, иначе и задачи не было бы. Но мы можем посчитать эмпирическую оценку риска, как среднее значение функции стоимости:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Тогда, согласно принципу минимизации эмпирического риска, мы должны выбрать такую гипотезу Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии, которая минимизирует Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

У данного принципа есть существенный недостаток, решения найденные таким путем будут склонны к переобучению. Мы говорим, что модель обладает обобщающей способностью, тогда, когда ошибка на новом (тестовом) наборе данных (взятом из того же распределения Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии) мала, или же предсказуема. Переобученная модель не обладает обобщающей способностью, т.е. на обучающем наборе данных ошибка мала, а на тестовом наборе данных ошибка существенно больше.

Линейная регрессия

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Эмпирический риск (функция стоимости) принимает форму среднеквадратичной ошибки:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

строки матрицы Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии— это признаковые описания наблюдаемых объектов. Один из алгоритмов обучения Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиитакой модели — это метод наименьших квадратов. Вычислим производную функции стоимости:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

приравняем к нулю и найдем решение в явном виде:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Поздравляю, дамы и господа, мы только что с вами вывели алгоритм машинного обучения. Реализуем же этот алгоритм. Начнем с датасета, состоящего всего из одного признака. Будем брать случайную точку на синусе и добавлять к ней шум — таким образом получим целевую переменную; признаком в этом случае будет координата Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

А теперь реализуем алгоритм обучения, используя магию NumPy:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Как мы видим, линия не очень-то совпадает с настоящей кривой. Среднеквадратичная ошибка равна 0.26704 условных единиц. Очевидно, что если бы вместо линии мы использовали кривую третьего порядка, то результат был бы куда лучше. И, на самом деле, с помощью линейной регрессии мы можем обучать нелинейные модели.

Полиномиальная регрессия

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Если заранее предрассчитать все степени признаков, то задача опять сводится к описанному выше алгоритму — методу наименьших квадратов. Попробуем отрисовать графики нескольких полиномов разных степеней.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

На графике мы можем наблюдать сразу два феномена. Пока не обращайте внимание на 13-ую степень полинома. При увеличении степени полинома, средняя ошибка продолжает уменьшаться, хотя мы вроде были уверены, что именно кубический полином должен лучше всего описывать наши данные.

perror
10.26704
20.22495
30.08217
50.05862
70.05749
100.0532
135.76155

Это явный признак переобучения, который можно заметить по визуализации даже не используя тестовый набор данных: при увеличении степени полинома выше третьей модель начинает интерполировать данные, вместо экстраполяции. Другими словами, график функции проходит точно через точки из тренировочного набора данных, причем чем выше степень полинома, тем через большее количество точек он проходит. Степень полинома отражает сложность модели. Таким образом, сложные модели, у которых степеней свободы достаточно много, могут попросту запомнить весь тренировочный набор, полностью теряя обобщающую способность. Это и есть проявление негативной стороны принципа минимизации эмпирического риска.

Вернемся к полиному 13-ой степени, с ним явно что-то не так. По идее, мы ожидаем, что полином 13-ой степени будет описывать тренировочный набор данных еще лучше, но результат показывает, что это не так. Из курса линейной алгебры мы помним, что обратная матрица существует только для несингулярных матриц, т.е. тех, у которых нет линейной зависимости колонок или строк. В методе наименьших квадратов нам необходимо инвертировать следующую матрицу: Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии. Для тестирования на линейную зависимость или мультиколлинеарность можно использовать число обусловленности матрицы. Один из способов оценки этого числа для матриц — это отношение модуля максимального собственного числа матрицы к модулю минимального собственного числа. Большое число обусловленности матрицы, или же наличие одного или нескольких собственных чисел близких к нулю свидетельствует о наличии мультиколлинеарности (или нечеткой мультиколлиниарности, когда Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии). Такие матрицы называются слабо обусловленными, а задача — некорректно поставленной. При инвертировании такой матрицы, решения имеют большую дисперсию. Это проявляется в том, что при небольшом изменении начальной матрицы, инвертированные будут сильно отличаться друг от друга. На практике это всплывет тогда, когда к 1000 семплов, вы добавите всего один, а решение МНК будет совсем другим. Посмотрим на собственные числа полученной матрицы, нас там ждет сюрприз:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Все так, numpy вернул два комплекснозначных собственных значения, что идет вразрез с теорией. Для симметричных и положительно определенных матриц (каковой и является матрица Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии) все собственные значения должны быть действительные. Возможно, это произошло из-за того, что при работе с большими числами матрица стала слегка несимметричной, но это не точно ¯\_(ツ)_/¯. Если вы вдруг найдете причину такого поведения нумпая, пожалуйста, напишите в комменте.

UPDATE (один из членов ложи по имени Андрей Оськин, с ником в слаке skoffer, без аккаунта на хабре, подсказывает):

Есть только одно замечание — не надо пользоваться формулой `(X^T X^<-1>) X^T` для вычисления коэффициентов линейной регрессии. Проблема с расходящимися значениями хорошо известна и на практике используют `QR` или `SVD`.

Ну, то есть вот такой кусок кода даст вполне приличный результат:

Перед тем как перейти к следующему разделу, давайте посмотрим на амплитуду параметров полиномиальной регрессии. Мы увидим, что при увеличении степени полинома, размах значений коэффициентов растет чуть ли не экспоненциально. Да, они еще и скачут в разные стороны.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессииРегуляризация

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Новая функция стоимости примет вид:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Вычислим производную по параметрам:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

И найдем решение в явном виде:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Для такой матрицы число обусловленности будет равно: Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии, где Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии— это собственные числа матрицы. Таким образом, увеличивая параметр регуляризации мы уменьшаем число обусловленности, а обусловленность задачи улучшается.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

perror
10.26748
20.22546
30.08803
100.05833
120.05585
130.05638

В результате даже 13-ая степень ведет себя так, как мы ожидаем. Графики немного сгладились, хотя мы все равно наблюдаем небольшое переобучение на степенях выше третьей, что выражается в интерполяции данных в правой части графика.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Амплитуда коэффициентов также изменилась, хотя скакать в разные стороны они не перестали. Мы помним, что полином третьей степени должен лучше всего описывать наши данные, хотелось бы, чтобы в результате регуляризации все коэффициенты при полиномиальных признаках степени выше третьей были равны нулю. И, оказывается, есть и такой регуляризатор.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиирегуляризация

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Тогда задача примет вид:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Посчитаем производную по параметрам модели (надеюсь уважаемые господа не будут пинать меня, за то, что я вжух и взял производную по модулю):

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

К сожалению, такая задача не имеет решения в явном виде. Для поиска хорошего приближенного решения мы воспользуемся методом градиентного спуска, тогда формула обновления весов примет вид:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

а в задаче появляется еще один гиперпараметр Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии, отвечающий за скорость спуска, его в машинном обучении называют скоростью обучения (learning rate).
Запрограммировать такой алгоритм не составит труда, но нас ждет еще один сюрприз:

Получим такую вот эволюцию ошибки:

Даже при такой небольшой скорости обучения, ошибка все равно растет и очень даже стремительно. Причина в том, что каждый признак измеряется в разных масштабах, от небольших чисел у полиномиальных признаков 1-2 степени, до огромных при 12-13 степени. Для того чтобы итеративный процесс сошелся, необходимо либо выбрать экстремально мелкую скорость обучения, либо каким-то образом нормализовать признаки. Применим следующее преобразование к признакам и попробуем запустить процесс еще раз:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Такое преобразование называется стандартизацией, распределение каждого признака теперь имеет нулевое матожидание и единичную дисперсию.

Все стало сильно лучше.
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Нарисуем теперь все графики:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

perror
10.27204
20.23794
30.24118
100.18083
120.16069
130.15425

Если посмотреть на коэффициенты, мы увидим, что большая часть из них близка к нулю (то, что у 13-ой степени коэффициент совсем не нулевой, можно списать на шум и малое количество примеров в обучающей выборке; так же стоит помнить, что теперь все признаки измеряются в одинаковых шкалах).

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии
Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Описанный способ построения регрессии называется LASSO регрессия. Очень хотелось бы думать, что дядька на коне бросает веревку и ворует коэффициенты, а на их месте остается нуль. Но нет, LASSO = least absolute shrinkage and selection operator.

Байесовская интерпретация линейной регрессии

Две вышеописанные регуляризации, да и сама лининейная регрессия с квадратичной функцией ошибки, могут показаться какими-то грязными эмпирическими трюками. Но, оказывается, если взглянуть на эту модель с другой точки зрения, с точки зрения байесовой статистики, то все становится по местам. Грязные эмпирические трюки станут априорными предположениями. В основе байесовой статистики находится формула Байеса:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

В то время как в байесовом подходе интересуются апостериорным распределением:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Часто получается так, что интеграл, полученный в результате байесового вывода, крайне нетривиален (в случае линейной регрессии это, к счастью, не так), и тогда нужна точечная оценка. Тогда мы интересуемся максимумом апостериорного распределения (MAP = maximum a posteriori):

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Давайте сравним ML и MAP гипотезы для линейной регрессии, это даст нам четкое понимание смысла регуляризаций. Будем считать, что все объекты из обучающей выборки были взяты из общей популяции независимо и равномерно распределенно. Это позволит нам записать совместную вероятность данных (правдоподобие) в виде:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

А также будем считать, что целевая переменная подчиняется следующему закону:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Т.е. верное значение целевой переменной складывается из значения детерминированной линейной функции и некоторой непрогнозируемой случайной ошибки, с нулевым матожиданием и некоторой дисперсией. Тогда, мы можем записать правдоподобие данных как:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

удобнее будет прологарифмировать это выражение:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

И внезапно мы увидим, что оценка, полученная методом максимального правдоподобия, – это то же самое, что и оценка, полученная методом наименьших квадратов. Сгенерируем новый набор данных большего размера, найдем ML решение и визуализируем его.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

По оси абсцисс и ординат отложены различные значения всех двух параметров модели (решаем именно линейную регрессию, а не полиномиальную), цвет фона пропорционален значению правдоподобия в соответствующей точке значений параметров. ML решение находится на самом пике, где правдоподобие максимально.

Найдем MAP оценку параметров линейной регрессии, для этого придется задать какое-нибудь априорное распределение на параметры модели. Пусть для начала это будет опять нормальное распределение: Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Если расписать логарифм этого выражения, то вы легко увидите, что добавление нормального априорного распределения — это то же самое, что и добавление Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиинормы к функции стоимости. Попробуйте сделать это сами. Также станет ясно, что варьируя регуляризационный параметр, мы изменяем дисперсию априорного распределения: Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Теперь на график добавились круги, исходящие от центра — это плотность априорного распределения (круги, а не эллипсы из-за того, что матрица ковариации данного нормального распределения диагональна, а на диагонали находится одно и то же число). Точками обозначены различные решения MAP задачи. При увеличении параметра регуляризации (что эквивалентно уменьшению дисперсии), мы заставляем решение отдаляться от ML оценки и приближаться к центру априорного распределения. При большом значении параметра регуляризации, все параметры будут близки к нулю.

Естественно мы можем наложить и другое априорное распределение на параметры модели, например распределение Лапласа, тогда получим то же самое, что и при Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиирегуляризации.

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Тогда апостериорное распределение примет вид:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Глобальная динамика не изменилась: увеличиваем параметр регуляризации — решение приближается к центру априорного распределения. Также мы можем наблюдать, что такая регуляризация способствует нахождению разреженных решений: вы можете видеть два участка, на которых сначала один параметр равен нулю, затем второй параметр (в конце оба равны нулю).

И на самом деле два описанных регуляризатора — это частные случаи наложения обобщенного нормального распределения в качестве априорного распределения на параметры линейной регрессии:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Или же мы можем смотреть на эти регуляризаторы с точки зрения ограничения Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессиинормы, как в предыдущей части:

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Что такое задача регрессии. Смотреть фото Что такое задача регрессии. Смотреть картинку Что такое задача регрессии. Картинка про Что такое задача регрессии. Фото Что такое задача регрессии

Заключение

Здесь вы найдете jupyter notebook со всем вышеописанным и несколькими бонусами. Отдельное спасибо тем, кто осилил этот текст до конца.

Желающим копнуть эту тему глубже, рекомендую:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *