Бустинг в маркетинге что это

Бустинг в маркетинге что это

Недавно я побывала на мастер-классе Игоря Манна, сооснователя нашего издательства и ныне создателя сервиса Krostu для роста, взлета и перезагрузки бизнеса, «Мои 119 самых любимых инструментов маркетинга». Наконец-то! Сказать, что было полезно — ничего не сказать. Рассказать все не смогу (8 часов в одну статью не уместишь никак), так что выбрала одну из любопытных тем — нестандартные инструменты маркетинга.

О многих из них вы даже не слышали. Но тем интереснее будет читать — и применять. Как говорит сам Игорь Манн: «Мало кто знает о новых и революционных инструментах маркетинга. Мало кто решается первым их попробовать. А зря». Знать и делать — вот что самое важное.

Периодическая система элементов маркетинга Манна

Что удивляет сразу же — так это собственная система элементов Игоря Манна, которую он разрабатывал 15 лет. Почти как у Менделеева 🙂 Только про маркетинг. В таблице есть блоки (например, осноиды, конкурентоиды, привлекоиды) и собственно элементы с веселыми названиями — целиум, брендий, незнаюм, плюсиум, упорий, за которыми стоит полезный и серьезный контент и годы работы.

Нестандартные инструменты маркетинга — это как раз элемент № 46 Большиум.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

10 инструментов нестандартного маркетинга

Переходим к самому любопытному — необычным маркетинговых инструментам. Заодно проверьте себя. Пусть это будет мини-тестом: отмечайте, какие из названий вы слышали хотя бы однажды.

1. Ambient media

2. Product sitting

3. Crazy PR

4. Сторителлинг

5. Трайвертайзинг

6. Сенситивный маркетинг

7. Identity marketing

8. Dead marketing

9. Inbound-маркетинг

10. Shockvertising

Ну что, сколько получилось? Даже если не так много, не расстраивайтесь. Сейчас узнаете, что скрывается за каждым названием.

1. Ambient media

Нестандартная реклама, которая проникает в окружение целевой аудитории. Проще говоря, она встраивается в нашу повседневную жизнь. И удивляет. Само собой, и сообщение бренда тоже транслирует. Такую рекламу размещают на стенах и крышах домов, на тротуарах и транспорте, в торговых центрах и кинотеатрах, на скамейках в скверах и лестницах. В общем, где угодно.

Догадались, почему работает эскалатор? Элементарно, Ватсон: дело в батарейках Duracell.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Ambient media в Малайзии, — источник

А вот еще классные примеры Ambient media (листайте фотографии стрелочками).

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

2. Product sitting

Перед тем как вывести продукт на рынок, производитель присылает образцы потребителям (но обязательно лидерам мнений), чтобы узнать их мнение и затем распространить его по другим каналам. Только конечный потребитель даст справедливую обратную связь и укажет на все недостатки.

3. Crazy PR

Название говорит само за себя. Легкая (а иногда и о-о-очень тяжелая) сумасшедшинка — только на пользу. Берите любую экстравагантную идею — и вперед, воплощать в жизнь. Главное, не переходить границы разумного (и приличий тоже) и проследить за тем, чтобы Crazy PR органично вписывался в позиционирование продукта, услуги или самого бренда.

Яркий пример — компания 3М, производитель сверхпрочного стекла. На улицах Ванкувера установили конструкции, вызвавшие живой интерес прохожих: за стеклом преспокойненько лежал 1 миллион долларов. Любой мог разбить стекло (ха-ха) и забрать деньги.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Повторяйте это, только если вы на 100% уверены в своем продукте, — источник.

4. Сторителлинг

Задолго до появления первого бизнеса шестью самыми сильными словами на всех языках были: «Позвольте мне рассказать вам одну историю». Сторителлинг, или рассказывание историй, — инструмент, который воодушевляет, мотивирует и, естественно, продает.

5. Трайвертайзинг

Вы и сами легко догадаетесь, что это за инструмент, когда увидите слово в оригинале — tryvertising. Разложите его на два части — и вуаля, смысл окажется на поверхности. Одно из значений глагола try — «пробовать». В этом вся соль.

Прежде чем купить что-то, потенциальный клиент может познакомиться с товаром поближе — пролистать книгу, взять автомобиль на тест-драйв, нанести капельку духов на кожу и почувствовать, как раскроется аромат. Люди больше не хотят покупать кота в мешке. Вдобавок такой маркетинговый инструмент повысит лояльность в разы.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Трайвертайзинг не только оффлайн-инструмент. Узнаете книгу? 😉 — источник.

6. Сенситивный маркетинг

Воздействуйте на все пять органов чувств — и получите результат, который нужен. С этим инструментом мы встречаемся повсюду. Ненавязчивая музыка в кофейнях (быстрая или медленная — в зависимости от того, как владельцы хотят управлять поведением посетителей), запах свежей выпечки в супермаркете, увеличивающий продажи почти на ⅓, элегантный звук захлопывающейся двери BMW — все это примеры сенситивного маркетинга.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Цвет имеет значение. ВMW серии M узнавать можно издалека, — источник.

Игорь Манн рассказал: «Однажды на одной из конференций я разговорился с автором книги по сенситивному маркетингу Мартином Линдстромом. Я признался ему, что ещё за два года до него написал о том, что маркетинг должен воздействовать на 6 органов чувств. Он удивился: „Какое шестое?“ „Это чувство юмора, — ответил я. — Когда человек смеется, он проще расстается с деньгами“».

7. Identity marketing

Случается, что бренды с похожей целевой аудиторией выстраивают маркетинг так, что сами становятся похожими друг на друга. Здесь на помощь приходит как раз identity marketing — маркетинг, основанный на отличительных чертах бренда. Нужно показывать клиентам то, чем вы на самом деле являетесь. Можно вспомнить уже надоевшее до зубовного скрежета слово «уникальность», но здесь оно уместно.

8. Dead marketing

Совсем уж нетипичный для нашей страны инструмент. Компания за свой счет ухаживает за могилами — здесь есть и социальная ответственность, и маркетинг в чистом виде: на кладбище ходит много людей, и все они видят, какая компания заботится об ушедших.

9. Inbound-маркетинг

Inbound-маркетинг (или inbound) — это продвижение сайта компании или продукта в поисковиках с помощью блога и email-рассылок за счет интересного и полезного для целевой аудитории контента. Пользователь с помощью поисковых систем ищет решение своей проблемы — и, заинтересовавшись материалами на эту тему, опубликованными в вашем блоге, выходит на вас.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Хотите пример? Читайте наш блог и подписывайтесь на рассылку МИФа по саморазвитию 🙂 — Источник

Inbound-маркетинг хорошо работает:

Создание качественного контента по всем правилам inbound-маркетинга — процесс долгий, трудоемкий и кропотливый. Но результат стоит того.

10. Shockvertising

Тем, кто дружит с английским, снова проще остальных. Термин образован из двух слов — shock (думаю, перевод не требуется) и advertising (реклама). Все самое нетипичное, неприличное, шокирующее, ужасающее, вызывающее негатив (хотя не всегда) и возмущение — это и есть шокирующая реклама.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Социальная реклама, предупреждающая о том, что смайлики — не обязательно признак дружелюбия, а с детьми в интернете могут общаться люди далеко не с самыми добрыми намерениями, — источник.

Инструмент для смелых. Пользоваться им нужно очень осторожно, просчитывать возможную реакцию аудитории и быть готовым к тому, что часть людей откажется от ваших продуктов или услуг.

Где взять что-то новое?

Если вы хотите поэкспериментировать и ищете новые инструменты маркетинга, Игорь Манн советует выбрать один из трех вариантов: найти, «украсть» (как художник, конечно же) или придумать.

Найти

Самый доступный канал для поиска новых инструментов — интернет. Ищите информацию по фразам «новый инструмент маркетинга», «новый канал коммуникаций» и подобным словам.

Неплохой канал — книги. Все самому не прочитать, поэтому можно запустить «Книжный клуб», участники которого будут читать по одной новой книге в неделю

и представлять остальным ее краткое содержание и почерпнутые оттуда «фишки». Еще один отличный канал — ивенты: конференции, форумы, тренинги, семинары и мастер-классы. На них можно найти много интересного.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Чтение — первая линия обороны от вакуума в голове, — источник.

Украсть

Мониторинг лидеров рынка (не только национального) — или бенчмаркинг — отличная возможность вовремя увидеть, что делают компании, задающие тон на рынке. Если что-то начали делать они, пожалуй, к этому стоит присмотреться и вам.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Памятка от Остина Клеона тем, кто хочет красть с умом, — источник.

Придумать

Иногда новый инструмент маркетинга рождается и в недрах компании. Правда, руководители часто слишком консервативны и осторожны — рискнуть решаются не все.

В книге «Делай новое!» Игорь Манн рассказывает такой случай: «Клиент, который услышал от меня идею нового инструмента, загорелся ею и говорит мне: „Игорь, делайте!“ — большая редкость. Пару лет назад у меня было такое консалтинговое счастье — я работал с банком в Калининграде. Я придумал для них два интересных инструмента — „нАВыроСт“ и „Годовой отчет положительных эмоций“ — и они сразу же их приняли и с успехом реализовали».

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это
Идеи витают в воздухе, — источник.

Альберт Эйнштейн как-то сказал: «Глупо ожидать другого результата, продолжая делать то же, что и раньше». И действительно. Прокачайте свой маркетинг. Удивите клиентов. Удивите конкурентов. Удивите отрасль. Удивитесь результатам сами!

Еще больше о революционных инструментах маркетинга читайте в новой книге Игоря Манна «Делай новое! Улучшаем бизнес с помощью маркетинга».

Источник

Бустинг, AdaBoost

Содержание

Описание [ править ]

Бустинг (англ. boosting) — мета-алгоритм машинного обучения. Основной идеей бустинга является комбинирование слабых функций, которые строятся в ходе итеративного процесса, где на каждом шаге новая модель обучается с использованием данных об ошибках предыдущих. Сильный обучающий алгоритм является классификатором, хорошо коррелирующим с верной классификацией, в отличие от слабого. Наравне с бустингом в мета-обучении также рассматривают такие понятия, как бэггинг (англ. bagging) и стэкинг [1] (англ. stacking). Бэггинг, в отличии от бустинга, использует параллельное обучение базовых классификаторов. Стэкинг же комбинирует результаты различных алгоритмов, получая тем самым более точный ответ.

Одним из недостатков бустинга является то, что он может приводить к построению громоздких композиций, состоящих из сотен алгоритмов. Такие композиции исключают возможность содержательной интерпретации, требуют больших объёмов памяти для хранения базовых алгоритмов и существенных затрат времени на вычисление классификаций.

Алгоритмы бустинга [ править ]

Большая часть алгоритмов бустинга основывается на итеративном обучении слабых классификаторов с дальнейшей сборкой их в сильный классификатор. Когда они добавляются, им обычно приписываются веса, обычно связанные с точностью обучения. После добавления слабого классификатора, веса пересчитываются («пересчёт весовых коэффициентов»). Неверно классифицированные входные данные получают больший вес, а правильно классифицированные экземпляры теряют вес. Таким образом, дальнейшее слабое обучение фокусируется на примерах, где предыдущие слабые обучения дали ошибочную классификацию.

Основное расхождение между многими алгоритмами бустинга заключается в методах определения весовых коэффициентов точек тренировочных данных и гипотез. Первым алгоритмом, который смог адаптироваться к слабому обучению был AdaBoost [2] (сокр. Adaptive Boosting), предложенный Шапире и Фройндом.

Прикладное использование алгоритмов бустинга [ править ]

Задача классификации объектов [ править ]

Если даны изображения, содержащие различные известные в мире объекты, классификатор может быть обучен на основе них для автоматической классификации объектов в будущих неизвестных изображениях. Простые классификаторы, построенные на основе некоторых признаков изображения объекта, обычно оказываются малоэффективными в классификации. Использование методов бустинга для классификации объектов — путь объединения слабых классификаторов специальным образом для улучшения общей возможности классификации.

Задача ранжирования выдачи поисковых систем [ править ]

Благодаря AdaBoost в мире появился градиентный бустинг (англ. gradient boosting) или GBM. Задачу ранжирования выдачи поисковых запросов рассмотрели с точки зрения функции потерь, которая штрафует за ошибки в порядке выдачи, поэтому было удобно внедрить GBM в ранжирование.

AdaBoost [ править ]

Описание [ править ]

Алгоритм может использоваться в сочетании с несколькими алгоритмами классификации для улучшения их эффективности. Алгоритм усиливает классификаторы, объединяя их в «комитет». AdaBoost является адаптивным в том смысле, что каждый следующий комитет классификаторов строится по объектам, неверно классифицированным предыдущими комитетами. AdaBoost чувствителен к шуму в данных и выбросам. Однако он менее подвержен переобучению по сравнению с другими алгоритмами машинного обучения.

Описание алгоритма [ править ]

Выражение для обновления распределения [math]D^t[/math] должно быть сконструировано таким образом, чтобы выполнялось условие:

Пример работы [ править ]

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Для всех ошибочно классифицированных объектов увеличим веса, а для верно классифицированных уменьшим

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Теперь у нас все объекты классифицируются верно и число ошибок на выборке равно нулю.

Достоинства и недостатки [ править ]

Пример кода [ править ]

Пример кода на python для scikit-learn [ править ]

Классификатор sklearn.ensemble.AdaBoostClassifier [6] имеет 5 параметров: base_estimator, n_estimators, learning_rate, algorithm, random_state. Наиболее важными являются:

Теперь рассмотрим алгоритм с SVC в качестве базы:

Источник

Градиентный бустинг с CATBOOST

CatBoost – библиотека, которая была разработана Яндексом в 2017 году, представляет разновидность семейства алгоритмов Boosting и является усовершенствованной реализацией Gradient Boosting Decision Trees (GBDT). CatBoost имеет поддержку категориальных переменных и обеспечивает высокую точность. Стоит сказать, что CatBoost решает проблему смещения градиента (Gradient Bias) и смещения предсказания (Prediction Shift), это позволяет уменьшить вероятность переобучения и повысить точность алгоритма.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Открываем Jupyter Notebook и начинаем работать с CatBoost.

Импортируем нужные нам библиотеки:

Загружаем набор данных:

Посмотрим на нашу выборку:

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Catboost необходимо сказать, какие признаки категориальные, для этого необходимо передать массив с индексами категориальных фичей:

Посмотрим на соотношение классов в нашем датасете, для этого посчитаем количество нулей и единиц:

Нулей в выборке 1897, а единиц 30872, это свидетельствует о дисбалансе классов, на это надо обращать внимание.

Прежде чем обучить модель, необходимо подготовить данные, данный кусок кода позволяет это сделать:

Посмотрим, как записался наш датасет:

Чтобы Catboost правильно считал наши данные, ему надо понимать, что и в какой колонке лежит, напишем код, который генерирует column description file, где будет описано какая колонка чем является:

Посмотрим на сгенерированный файл:

Перед нами три колонки: первая колонка – это индексы колонок в файле с обучающей выборкой, вторая колонка – тип, третья колонка – фичи.

Теперь создадим объекты выборки, родной формат для Catboost является Pool, это такой класс, в котором содержатся данные, в конструктор он принимает разные параметры, создаем такие Pool’ы:

Следующим шагом мы разобьем нашу выборку на тестовую и тренировочную, сделаем это с помощью train_test_split из библиотеки Scikit Learn:

Теперь переходим к обучению, здесь у нас будет два параметра – количество итераций и скорость обучения. Напомню, градиентный бустинг – это композиция решающих деревьев, каждое дерево строится последовательно, каждое последующее дерево компенсирует ошибки предсказания предыдущего дерева. По сути, число итераций – это количество деревьев. Если выставить скорость обучения высокой, то мы получим быстро переобучение, если слишком маленькой, то будем долго идти до некого оптимума.

Далее переходим к функции fit, которая запускает обучение нашей модели:

Здесь мы выставили параметр Verbose равный False, чтобы в stdout не выводилась никакая информация во время обучения. После обучения вызовем метод is_fitted(), он показывает обучилась ли модели, второй параметр get_params(), он покажет нам с какими параметрами происходило обучение модели. Выполним данный блок кода:

Обучим модель вновь, но на этот раз будет показан прогресс нашего обучения, здесь параметр Verbose будет иметь значение равное 35, это значит, что каждые 35 итераций будет выводиться прогресс обучения нашей модели:

В выводе мы видим время обучения, лучшую итерацию и лучшее значение на тестовой выборке.

Catboost имеет параметр custom_loss, чтобы посмотреть обучение модели на других метриках. Передадим список метрик в этот параметр и эти самые метрики будут считаться на каждой итерации. Надо отметить, что по умолчанию в Catboost стоит метрика LogLoss и нельзя не обратить внимание на параметр Plot, который установлен с флагом True, это встроенный визуализатор, он показывает в Real-Time ход обучения модели. Запустим данную часть кода:

Визуализатор показывает ход обучения по трем метрикам:

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

На графике рисуется точка, которая дает понять, в какой момент наша модель переобучилась, по сути, все то, что идет после этой точки нам не нужно, оно только ухудшает наши предсказания, все деревья, после итерации, на которой мы получили переобучение, просто отбрасываются.

Бывает так, что у нас есть модель с разными наборами параметров, в данном случае будет отличаться скорость обучения и мы хотим посмотреть, в какой момент мы получим переобучение модели, это так же можно визуализировать:

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Сразу же видно, что модель с learning_rate в 0.7 моментально получила переобучение, а модель с learning_rate в 0.01 получила переобучение на последних итерациях, исходя из этого можно сказать, что последняя модель более качественная и будет нам давать наилучшие результаты при ее дальнейшем использовании.

Чтобы отбросить ненужные деревья, в ходе обучения модели, в Catboost присутствует параметр use_best_model, по умолчанию он включен и в итоге у нас останется дерево до того момента, когда качество начнет ухудшаться, давайте посмотрим, что это действительно так:

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Как видим, после 125 итерации модель ловит переобучение. Чтобы посмотреть количество деревьев, которые содержаться в нашей модели, мы выполним такую строчку:

Да, у нас осталось дерево ровно до того момента, пока мы не получили переобучение нашей модели.

На этом закончим первую часть статьи про градиентный бустинг с использованием CatBoost. В следующей части поговорим про Cross Validation, Overfitting Detector, ROC-AUC, SnapShot и Predict.

Источник

Градиентый бустинг — просто о сложном

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Хотя большинство победителей соревнований на Kaggle используют композицию разных моделей, одна из них заслуживает особого внимания, так как является почти обязательной частью. Речь, конечно, про Градиентный бустинг (GBM) и его вариации. Возьмем, например. победителя Safe Driver Prediction, Michael Jahrer. Его решение — это комбинация шести моделей. Одна LightGBM (вариация GBM) и пять нейронных сетей. Хотя его успех в большей мере принадлежит полуконтролируемому обучению, которое он использовал для упорядочивания данных, градиентный бустинг сыграл свою роль.

Даже несмотря на то, что градиентный бустинг используется повсеместно, многие практики до сих пор относятся к нему, как к сложному алгоритму в черном ящике и просто запускают готовые модели из предустановленных библиотек. Цель этой статьи — дать понимание как же работает градиентный бустинг. Разбор будет посвящен чистому “vanilla” GMB.

Ансамбли, бэггинг и бустинг

Когда мы пытаемся предсказать целевую переменную с помощью любого алгоритма машинного обучения, главные причины отличий реальной и предсказанной переменной — это noise, variance и bias. Ансамбль помогает уменьшить эти факторы (за исключением noise — это неуменьшаемая величина).

Ансамбль

Ансамбль — это набор предсказателей, которые вместе дают ответ (например, среднее по всем). Причина почему мы используем ансамбли — несколько предсказателей, которые пытаюсь получить одну и ту же переменную дадут более точный результат, нежели одиночный предсказатель. Техники ансамблирования впоследствии классифицируются в Бэггинг и Бустинг.

Бэггинг

Бэггинг — простая техника, в которой мы строим независимые модели и комбинируем их, используя некоторую модель усреднения (например, взвешенное среднее, голосование большинства или нормальное среднее).

Обычно берут случайную подвыборку данных для каждой модели, так все модели немного отличаются друг от друга. Выборка строится по модели выбора с возвращением. Из-за того что данная техника использует множество некореллириющих моделей для построения итоговой модели, это уменьшает variance. Примером бэггинга служит модель случайного леса (Random Forest, RF)

Бустинг

Бустинг — это техника построения ансамблей, в которой предсказатели построены не независимо, а последовательно

Это техника использует идею о том, что следующая модель будет учится на ошибках предыдущей. Они имеют неравную вероятность появления в последующих моделях, и чаще появятся те, что дают наибольшую ошибку. Предсказатели могут быть выбраны из широкого ассортимента моделей, например, деревья решений, регрессия, классификаторы и т.д. Из-за того, что предсказатели обучаются на ошибках, совершенных предыдущими, требуется меньше времени для того, чтобы добраться до реального ответа. Но мы должны выбирать критерий остановки с осторожностью, иначе это может привести к переобучению. Градиентный бустинг — это пример бустинга.

Алгоритм градиентного бустинга

Градиентный бустинг — это техника машинного обучения для задач классификации и регрессии, которая строит модель предсказания в форме ансамбля слабых предсказывающих моделей, обычно деревьев решений.

Цель любого алгоритма обучения с учителем — определить функцию потерь и минимизировать её. Давайте обратимся к математике градиентного бустинга. Пусть, например, в качестве функции потерь будет среднеквадратичная ошибка (MSE):

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Мы хотим, чтобы построить наши предсказания таким образом, чтобы MSE была минимальна. Используя градиентный спуск и обновляя предсказания, основанные на скорости обучения (learning rate), ищем значения, на которых MSE минимальна.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Итак, мы просто обновляем предсказания таким образом, что сумма наших отклонений стремилась к нулю и предсказанные значения были близки к реальным.

Интуиция за градиентным бустингом

Логика, что стоит за градиентым бустингом, проста, ее можно понять интуитивно, без математического формализма. Предполагается, что читатель знаком с простой линейной регрессией.

Первое предположение линейной регресии, что сумма отклонений = 0, т.е. отклонения должны быть случайно распределены в окрестности нуля.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что этоНормальное распределение выборки отклонений со средним 0

Теперь давайте думать о отклонениях, как об ошибках, сделанных нашей моделью. Хотя в моделях основанных на деревьях не делается такого предположения, если мы будем размышлять об этом предположении логически (не статистически), мы можем понять, что увидив принцип распределения отклонений, сможем использовать данный паттерн для модели.

Итак, интуиция за алгоритмом градиентного бустинга — итеративно применять паттерны отклонений и улучшать предсказания. Как только мы достигли момента, когда отклонения не имеют никакого паттерна, мы прекращаем достраивать нашу модель (иначе это может привести к переобучению). Алгоритмически, мы минимизируем нашу функцию потерь.

Шаги построения модели градиентного спуска

Рассмотрим смоделированные данные, как показано на диаграмме рассеивания ниже с 1 входным (x) и 1 выходной (y) переменными.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что это

Данные для показанного выше графика генерируются с использованием кода python:

1. Установите линейную регрессию или дерево решений на данные (здесь выбрано дерево решений в коде) [вызов x как input и y в качестве output]

2. Вычислите погрешности ошибок. Фактическое целевое значение, минус прогнозируемое целевое значение [e1 = y — y_predicted1]

3. Установите новую модель для отклонений в качестве целевой переменной с одинаковыми входными переменными [назовите ее e1_predicted]

4. Добавьте предсказанные отклонения к предыдущим прогнозам
[y_predicted2 = y_predicted1 + e1_predicted]

5. Установите еще одну модель оставшихся отклонений. т.е. [e2 = y — y_predicted2], и повторите шаги с 2 по 5, пока они не начнутся overfitting, или сумма не станет постоянной. Управление overfitting-ом может контролироваться путем постоянной проверки точности на данных для валидации.

Чтобы помочь понять базовые концепции, вот ссылка с полной реализацией простой модели градиентного бустинга с нуля.

Приведенный код — это неоптимизированная vanilla реализация повышения градиента. Большинство моделей повышения градиента, доступных в библиотеках, хорошо оптимизированы и имеют множество гиперпараметров.

Визуализация работы Gradient Boosting Tree:

Заметим, что после 20-й итерации отклонения распределены случайным образом (здесь не говорим о случайной норме) около 0, и наши прогнозы очень близки к истинным значениям (итерации называются n_estimators в реализации sklearn). Возможно, это хороший момент для остановки, или наша модель начнет переобучаться.

Посмотрим, как выглядит наша модель после 50-й итерации.

Бустинг в маркетинге что это. Смотреть фото Бустинг в маркетинге что это. Смотреть картинку Бустинг в маркетинге что это. Картинка про Бустинг в маркетинге что это. Фото Бустинг в маркетинге что этоВизуализация градиентного бустинга после 50 итераций

Мы видим, что даже после 50-й итерации отклонения по сравнению с графиком x похожи на то, что мы видим на 20-й итерации. Но модель становится все более сложной, и предсказания перерабатывают данные обучения и пытаются изучить каждый учебный материал. Таким образом, было бы лучше остановиться на 20-й итерации.

Фрагмент кода Python, используемый для построения всех вышеперечисленных графиков.

Видео Александра Ихлера:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *