Кластер магазина что это
Что такое кластеризация или кластерный анализ
Примеры кластеризации в маркетинге.
Если у вас есть большой массив данных, то наиболее эффективный способ понять, что с ними делать — рассортировать их в группы для первичного анализа. Группировать можно при помощи — сегментации (вы сами задаете критерии, например, возрастные и ценовые группы) или кластеризации (математический алгоритм сам выявляет “связующий” критерий или признак, который объединяет данные). Ценность data-driven подхода и основное отличие кластеризации заключается в том, что алгоритмы выявляют и объединяют параметры с похожими чертами из первичного массива данных.
Маркетинг и продажи — одно из направлений применения кластерного анализа. В частности для прогнозирования будущего поведения покупателя — персонализации и таргетирования. Кластерный анализ использует математические модели для обнаружения групп схожих клиентов, основываясь на наименьших различиях среди покупателей в каждой группе.
Кластерный анализ (англ. cluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.
Боль: кампании, как маркетинговая инвестиция, должны быть направлены на конкретную целевую группу.
Стандартный пул данных в датасете:
Более глубокое понимание клиентских сегментов достигается путем разработки 3D-модели кластеров на основе ключевых бизнес-показателей, таких как размещенные заказы (покупки), частота заказов, заказанные товары или изменение цен. Актуальность результатов кластеризации для бизнеса позволяет лицам, принимающим решения, выявлять проблемные кластеры, которые вынуждают продавца использовать больше ресурсов для достижения целевого результата. Затем можно сосредоточить свои маркетинговые и операционные усилия на правильных кластерах, чтобы обеспечить оптимальное использование ресурсов, включая:
Хотя возможности прогнозирования, предлагаемые кластеризацией, могут трансформировать результаты целевого маркетинга, кластеризация наиболее эффективна при использовании вместе с другими решениями для розничной аналитики. Ценность кластеризации продуктов особенно видна в очень разреженном датасете (наборе данных). В дополнение к повышению рентабельности маркетинговых инвестиций (ROMI) с точки зрения прибыльности клиентов, кластеризация продуктов может помочь ритейлерам таргетировать и активизировать клиентов из категории с невысокой платежеспособностью.
Подробнее о функционале модуля “Кластеризация” смотрите в обучающем видео.
Как разработать структуру интернет-магазина на основе кластеризации и лемматизации семантики
После подбора семантики для действующего интернет-магазина вас ожидает неприятное открытие: структура магазина скорее всего не позволит разместить все ключевые фразы. Придется или откладывать оптимизацию до лучших времен (когда затеете редизайн), или втискивать новые страницы в имеющуюся структуру, запутывая и усложняя ее.
Если компромиссные решения не для вас, адаптируйте структуру под новую семантику.
Но как спроектировать разделы/подразделы, чтобы они, с одной стороны, вместили тысячи ключей из ядра, а с другой — улучшили навигацию? Покажем на примере.
Исходные данные
Возьмем для примера молодой региональный интернет-магазин домашнего декора, сувениров и подарков.
Текущая структура имеет такой вид:
Для интернет-магазина собрано и вычищено от «мусора» и «пустышек» семантическое ядро на 1000 фраз (сформировано на основе названий товаров и рубрик магазина).
Задача — разработать новую структуру магазина, которая будет отражать реальные поисковые потребности пользователей. Решать ее будем в три этапа.
Этап 1. Кластеризация
Кластеризация — это группировка ключевых фраз на основе схожести результатов поисковой выдачи по ним.
В отличие от группировки на основе семантической близости, кластеризация позволяет избежать ошибок, связанных с размещением на одной странице запросов с разным интентом.
Например, фразы «картина для спальни купить» и «картины для спальни» при группировке на основе семантики наверняка бы попали в одну группу. Но если посмотреть на поисковую выдачу по ним, то она окажется разной.
А все потому, что у фразы «картины для спальни» коммерческий интент (пользователь выбирает товар), а у фразы «картина для спальни купить» — транзакционный (пользователь выбрал картину и готов ее купить). Поэтому выдача по первой фразе содержит фото, подборки идей и страницы с товарами, а по второй — только страницы интернет-магазинов.
Для кластеризации есть онлайн-сервисы (Just Magic, PixelPlus, PromoPult и др.) и десктопные программы (KeyAssort, KeyCollector). Работают они по похожему принципу (разве что в KeyCollector кластеризация требует специфической подготовки): загружаете список запросов, указываете регион, точность кластеризации и получаете сгруппированное ядро.
При кластеризации особенно важно задать правильную точность — количество совпадений результатов выдачи в ТОП-10, при котором фразы попадают в одну группу. Например, при точности 3 запросы попадут в один кластер, если в выдаче по ним будет три и более одинаковых результата.
Если точность низкая, то кластеры получаются слишком обширными, а если высокая, то ядро может быть излишне раздроблено.
Чтобы не гадать и не переплачивать за лишние итерации, удобнее всего задать точность диапазоном. В этом случае вы получите несколько кластеризованных ядер, но заплатите только один раз. Такая функция есть в кластеризаторе PromoPult. Задаем точность от 3 до 7, устанавливаем приоритетную поисковую систему, регион и запускаем процесс:
Загружаем отчет и сравниваем результаты кластеризации при разной точности. Наша задача — выбрать «золотую середину», чтобы кластеры были и не слишком обширными, и не раздробленными. В нашем примере оптимальной видится точность 6.
После кластеризации сталкиваемся с проблемой: существующая структура интернет-магазина не позволяет разместить группы запросов.
Например, есть кластеры «деревянные подсвечники» и «купить свечи в интернет магазине». Мы не можем размещать эти кластеры на одной странице — у них разный интент. Но на сайте товарные группы с такими названиями расположены как раз на одной странице, что с точки зрения оптимизации неверно.
Логика подсказывает: почему бы просто не создать раздел «Свечи» и оптимизировать его под кластер «свечи купить», а раздел «Подсвечники, канделябры, свечи» переименовать в «Подсвечники» и оптимизировать под «деревянные подсвечники»?
Но все не так просто: а что делать с другими кластерами вроде «подсвечник в подарок»? Размещать в разделе «Подсвечники»? Или «Праздники»? Или еще каком-то? И таких кластеров около 200 — и каждый из них по-своему «проблемный».
Этап 2. Лемматизация кластеров и классификация лемм
Для формирования структуры магазина необходимо классифицировать кластеры на основе общих признаков и сгруппировать их. Здесь поможет лемматизация — разбиение исходных фраз на отдельные слова и приведение их к именительному падежу единственному числу (лемме).
Копируем названия кластеров (не ключей!), вставляем их в лемматизатор и запускаем процесс.
Переносим слова из раздела «Лемматизированные слова» в Excel и каждому слову присваиваем классификационный признак.
Признаки кратко характеризуют лемматизированное слово. Например, слово «купить» можно описать как процесс. Поэтому напротив этого слова ставим признак «процесс». Вы бы могли назвать его по-другому (допустим, «действие»). Это не принципиально — суть в том, чтобы сгруппировать все слова по схожим признакам.
В нашем случае признаков получилось девять:
Сортируем список лемм по признакам и переносим данные в столбцы для удобства визуализации.
Пока это не готовая структура. Но мы уже на финишной прямой.
Этап 3. Формирование структуры интернет-магазина
Анализируем леммы по каждому признаку и продумываем, под какие из них создать разделы/подразделы или фильтры.
Признак «время» сразу отсеиваем. Сюда попали слова, относящиеся к «поводу». Также удаляем признак «процесс», поскольку слово «вышивать» нерелевантное, а «купить» и так будет фигурировать практически на всех страницах магазина.
По признаку «товар» больше всего слов. Поскольку у нас интернет-магазин, то имеет смысл вынести все товары в отдельный пункт меню. Назовем его «Каталог».
Также логично создать пункт меню по признаку «место». Назовем его «Виды декора». Подпункты — «Для гостиной», «Для кухни», «Для сада» и т. п.
Аналогично вынесем в меню признак «повод». Назовем пункт «Праздники». Подразделами будут «Декор на Новый год», «Декор на день рождения» и т. п.
На основе признака «человек» сформируем пункт меню «Подарки» с подразделами «Подарки парню», «Подарки подруге», «Подарки бабушке» и т. п.
И последний пункт меню — «Стиль», сформированный на основе одноименного признака. Подпункты — «Декор прованс», «Декор шебби шик», «Декор лофт».
Остаются признаки «предмет» и «свойство». На основе первого признака нет смысла выделять пункт меню или фильтры, мы их будем использовать в названиях разных рубрик. А вот на основе слов из признака «свойства» делаем фильтры:
Выстраиваем структуру магазина:
Остается рассортировать кластеры поисковых запросов по разделам и подразделам.
Естественно, разделов и подразделов не хватит, чтобы разнести все 200 кластеров. Под оставшиеся кластеры создаются страницы с результатами фильтрации (например, будут страницы «Белый декор», «Круглый декор», «Романтический декор» и т. п.). Если и после этого останутся кластеры, под них оптимизируются релевантные карточки товаров.
Метод легко масштабируется на любой проект
Благодаря кластеризации и лемматизации семантики вы без проблем сгруппируете фразы по поисковому интенту и сформируете на их основе структуру интернет-магазина, учитывающую реальные интересы целевой аудитории.
Преимущество метода в масштабируемости. Он подходит как для небольших площадок, так и для интернет-магазинов с десятками тысяч ключей. Причем именно на больших проектах, когда ручная интуитивная работа становится невозможной, метод проявляет себя лучше всего.
Кластерный анализ
Рис. 1 Построение кластерного графика
Изменение цены одного актива, неизбежно влечёт за собой цепочку ценовых движений и на других инструментах. В большинстве случаев понимание трендового движения происходит уже в тот момент, когда оно бурно развивается, и вход в рынок по тренду чреват попаданием в коррекционную волну. Для успешных сделок необходимо понимать текущую ситуацию и уметь предвидеть будущие ценовые движения. Этому можно научиться, анализируя график кластеров. С помощью кластерного анализа можно видеть активность участников рынка внутри даже самого маленького ценового бара. Это наиболее точный и детальный анализ, так как показывает точечное распределение объёмов сделок по каждому ценовому уровню актива.
Особенности кластерного анализа
Если видеть действия доминирующих участников рынка (продавцов или покупателей), то можно предсказывать и само движение цены.
Рис. 2 Кластерный график
Каждый кластер, или группа дельт, позволяет разобраться в том, покупатели или продавцы преобладают на рынке в данный момент времени. Достаточно лишь подсчитать общую дельту, просуммировав продажи и покупки. Если дельта отрицательна, то рынок перепродан, на нём избыточными являются сделки на продажу. Когда же дельта положительна, то на рынке явно доминируют покупатели. Сама дельта может принимать нормальное или критическое значение. Значение объёма дельты сверх нормального в кластере выделяют красным цветом. Если дельта умеренна, то это характеризует флетовое состояние на рынке. При нормальном значении дельты на рынке наблюдается трендовое движение, а вот критическое значение всегда является предвестником разворота цены.
Кластеризация: расскажи мне, что ты покупаешь, и я скажу кто ты
Задача Datawiz.io: провести кластеризацию клиентов программы лояльности в ритейле.
Кластеризация — это метод поиска закономерностей, предназначенный для разбиения совокупности объектов на однородные группы (кластеры) или поиска существующих структур в данных.
Целью кластеризации является получение новых знаний. Это как “найти клад в собственном подвале”.
Для чего это нужно компаниям? Чтобы лучше узнать своих клиентов. Чтобы найти индивидуальный подход к каждому клиенту, а не работать со всеми одинаково.
Несмотря на то, что многие компании используют программы лояльности и обладают колоссальными данными, их аналитики сначала определяют персону покупателя, а уже потом анализируют ее поведение.
Решение: Machine Learning позволяет пойти от обратного, от личных предпочтений — к персоне. Мы в Datawiz.io используем кластеризацию как метод группирования клиентов по данным о их поведении – покупках, банковских транзакциях, кредитных историях.
Для кластеризации массива данных (чеки, данные по программах лояльности) мы используем алгоритм K-means. Он хорошо масштабируется и оптимизируется под Hadoop.
Также как альтернативу можно использовать алгоритм Affinity Propagation. Конечно, у него есть ряд существенных минусов: он медленный и плохо масштабируется. Но в частных случаях, при желании и наличии свободного времени, можно использовать его для кластеризации на коротких промежутках времени.
1. Clean Datа.
Прежде, чем формировать матрицу — в обязательном порядке чистим информацию. Убираем то, что не влияет на поведение покупателей и является информационным шумом. Для ритейлеров, например, можно исключить рекламную продукцию, выданные дисконтные карты, скретч-карты, тару и пакеты, покупаемые на кассе. После того как данные очищены приступаем к формированию матрицы.
2. Формируем матрицу с входными данными.
Важно: Результаты кластеризации очень зависят от периода времени, по которому она проводится. Если выберем кроткий период — увидим текущие тренды.
Например, проведя кластеризацию перед Новым годом, увидим кластеры, которые не видны на длительном промежутке времени. (Скажем, кластер “Любители “Оливье” и “Селедки под шубой”). Кластеризация за длительный период позволит увидеть картину в целом, то есть клиентов со стабильным поведением (“лайфстайл”). “Студенты”, “Домохозяйки”, “Пенсионеры” и т.д.
Например, ритейлер хочет провести кластеризацию по программе лояльности за полгода.
У магазина есть чеки Васи, который за полгода купил 1 хлеб, 2 молока и 1 батон; и чеки Оли — она купила 3 хлеба, 5 молока и 2 батона за полгода и т.д.
Значит матрица для этого ритейлера будет выглядеть так:
Для ритейлера в среднем, features = 15 тыс. SKU, а samples = 60 тыс. клиентов.
Возьмем каждого отдельно клиента, например Васю со всеми его чеками за полгода. В зависимости от количества вхождений всех товаров по всех его чеках, разместим Васю (и других) на графике, где:
количество осей = количеству товаров (features),
количество точек = количеству клиентов (samples), участвующих в программе лояльности.
Наглядное (и очень схематичное:) изображение:
Но выглядеть результат кластеризации алгоритмом k-means будет так:
Также можно проводить кластеризацию по разных уровнях категоризации товаров (feature reduction), тогда матрица будет выглядеть так:
После того, как матрица сформирована, можно переходить к выбору количества кластеров.
3. Выбираем оптимальное количество кластеров.
Количество кластеров мы выбираем экспериментальным путем, исходя из собственного опыта. Малое количество кластеров будет малоэффективно и не информативно, потому что в таком случае мы получаем один-два “мегакластера”, куда будет входить 98% клиентов и несколько бесполезных маленьких кластеров.
При большом количестве кластеров получится слишком много маленьких групп. К тому же никто не хочет анализировать 5000 отдельных мелких кластеров. Для каждого отдельного случая должен быть свой индивидуальный подход.
Для длительных периодов и большого количества кластеров используем K-means.
4. Проводим кластеризацию.
Выбираем алгоритм K-means (или Affinity Propagation), используем Python библиотеку scikit-learn, на вход даем получившуюся матрицу, запускаем кластеризацию.
5. Анализируем результаты кластеризации.
Результатом работы алгоритма является маркировка всех клиентов программы лояльности, в зависимости от их поведения/покупки. Клиенты с одинаковыми поведенческими характеристиками попадают в один кластер.
Если вы проводите кластеризацию за весь период работы, то в ней участвуют все клиенты программы лояльности. Если за определенный период (год, месяц), то в кластеризации участвуют только те клиенты, которые совершили покупки в заданный период.
Итак, мы провели кластеризацию по программе лояльности для ритейлера за полгода, с количеством кластеров 75. Рассмотрим, как распределились по кластерам покупатели, и какие товары предпочитают в тех или иных кластерах:
— В “Кластер 1” попало 45% клиентов за этот период. Лидерами продаж по товарам здесь стали: масло, бананы, яйца, молоко, батон, сметана.
— В “Кластере 2” оказалось 12% клиентов. Здесь популярнее остальных уже несколько видов хлеба и сметаны, бананы и непродовольственные товары.
— Пять последующих кластеров уже не такие большие, в каждый из них входят лишь по 2-3% клиентов. (В общей сложности в эти кластеры попали 12% клиентов за выбранный период). Здесь предпочтения клиентов весьма интересны, например: молочные продукты+фрукты, печенье+йогурты\сырки, йогурты\десерты+хлопья, курица+пиво+корм для кошек.
— Оставшиеся 31% покупателей рассеяны по 68 кластерам. в которые входят 0,1-2% клиентов. Также кластер может быть очень маленьким и состоять из 1-2 человек. Чем может быть интересен такой кластер? Читайте в кейсах в конце статьи.
При кластеризации алгоритм выявляет нестандартное поведение клиента. Выявить такое поведение поможет анализ отдельных “фич”(характеристик и особенностей) каждого отдельного кластера.
6. Анализируем характеристики каждого кластера.
7. Проводим персонализированную рассылку по каждому кластеру.
Используя кластеризацию клиентов, можно получить четкую систему рекомендаций для персонала — какой товар, какому клиенту и в какое время предлагать.
Зная, что и какой группе людей предлагать, компании смогут избежать метода “ковровой бомбардировки” при sms или e-mail рассылке. Предлагая клиентам только нужные им товары (не забывая про сопутствующие), можно добиться гораздо большего отклика и конверсии в покупку.
Рассмотрим несколько кейсов от Datawiz.io.
Повышение эффективности промо-рассылок с помощью кластеризации.
В результате кластеризации клиентов одной из сети магазинов мы получили 75 кластеров. Для примера рассмотрим три из них: “молодая семья”, “студент” и “пенсионер”.
— Клиенты кластера “молодая семья” были наиболее восприимчивы к предложениям по покупке подгузников, детского питания, фруктов и молока;
— “студентам” предложили скидки на продукты группы фастфуд и пиво;
— а “пенсионерам” на крупы и овощи.
В следствии такой рассылки конверсия в покупку увеличилась на 14,5 %.
Продвижение нового продукта.
Вариант 1. Чтобы узнать кому будет интересен новый продукт, мы сделали рассылку по всех клиентах программы лояльности. По результатах отклика узнали персону покупателя, которой необходимо маркетировать новый продукт. Далее, отследили нужных нам покупателей в кластерах. Провели рассылку уже только по интересующих нас кластерах.
Вариант 2. Компания не захотела проводить рассылку по всех клиентах, так как база весьма обширна. Поэтому мы создали гипотезу, каким кластерам клиентов этот продукт интересен. Из всех интересующих нас кластеров мы взяли рандомно по 1% клиентов и провели по ним тестовую рассылку. С теми кластерами, которые показали наивысшую конверсию в покупку после тестовой рассылки, и работали в дальнейшем, предлагая новый продукт всему кластеру.
Нестандартное поведение клиента.
Мы провели кластеризацию для магазина одной из сети. Алгоритм выдал кластер, в котором было всего 2 клиента. Но внимание привлекла сумма оборота по этому кластеру за небольшой период. Казалось бы, ну покупают люди много разнообразных продуктов и товаров.
Еще одной интересной деталью было то, что много чеков проводились с разницей в несколько минут. Когда же отследили этих клиентов в базе программы лояльности, оказалось, что владельцами двух дисконтных карт были сотрудники магазина.
Вопрос: может сотрудники таким образом склоняли клиентов к покупке? или зарабатывали себе дисконтные баллы? или продавали товар по полной стоимости, а разницу присваивали, то есть, мошенничали?
Как кластеризация помогает подобрать правильный ассортимент в категории?
Как кластеризация помогает подобрать правильный ассортимент в категории?
Запросы покупателей в соседних точках розничной сети могут кардинально различаться. Просто масштабировать ассортимент под размер торговой площади – не выход. Такое решение может снизить лояльность клиентов и продажи. Как кластеризация помогает определить потребности покупателей каждого из магазинов огромной сети и наполнить полки именно теми товарами, которые будут покупать? Подробный разбор в нашей статье. Поехали!
Что такое кластеризация?
Грамотно подобранный ассортимент в каждой категории товаров – ключевой фактор в повышении продаж и прибыльности. Чтобы правильно подобрать ассортимент, нужно изучать историю продаж, поведение покупателей и спрос каждой отдельной торговой точки сети. Возражение, что это долго и затратно по ресурсам – справедливо. Тут поможет кластеризация. В процессе кластеризации мы определяем закономерности в потреблении и собираем магазины в группы (кластеры) с похожим потреблением.
К примеру, возьмем категорию пиво. Разобьем категории продукта по определённым свойствам:
И попытаемся найти чем, магазины похожи между собой в структуре потребления слабоалкогольного напитка.
В математике давно есть разработанные средства кластерного анализа. К примеру, метод кластеризации и поиск k-средних. Расположим магазины на карте координат, сосчитаем и проанализируем, чем торговые точки схожи между собой. Метод кластерного анализа k-means позволяет сгруппировать торговые точки по определённым признакам.