Кластеризация что это такое простыми словами

Кластеризация

Кластерный анализ (англ. Data clustering ) — задача разбиения заданной выборки объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

Содержание

Типология задач кластеризации

Типы входных данных

Цели кластеризации

В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

Во всех этих случаях может применяться иерархическая кластеризация, когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии.

Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому.

Классическим примером таксономии на основе сходства является биноминальная номенклатура живых существ, предложенная Карлом Линнеем в середине XVIII века. Аналогичные систематизации строятся во многих областях знания, чтобы упорядочить информацию о большом количестве объектов.

Методы кластеризации

Формальная постановка задачи кластеризации

Пусть Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами— множество объектов, Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами— множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами. Имеется конечная обучающая выборка объектов Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами, а объекты разных кластеров существенно отличались. При этом каждому объекту Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словамиприписывается номер кластера Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами.

Алгоритм кластеризации — это функция Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами, которая любому объекту Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словамиставит в соответствие номер кластера Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами. Множество Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словамив некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

Кластеризация (обучение без учителя) отличается от классификации (обучения с учителем) тем, что метки исходных объектов Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словамиизначально не заданы, и даже может быть неизвестно само множество Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами.

Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин:

а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты.

Применение

В биологии

В социологии

В информатике

См. также

Литература

Внешние ссылки

На русском языке

На английском языке

Полезное

Смотреть что такое «Кластеризация» в других словарях:

кластеризация — — [Интент] Тематики автоматизированные системы EN clustering … Справочник технического переводчика

кластеризация — кластериз ация, и … Русский орфографический словарь

КЛАСТЕРИЗАЦИЯ — выделение различных групп объектов с общими признаками [63, c. 83] … Современный образовательный процесс: основные понятия и термины

кластеризация записей — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN record clustering … Справочник технического переводчика

Кластеризация рекламы — подача новостей или рекламной информации блоками, в которых объединяющую роль играет или общая тема, или общая фирма, рекламирующая свои товары … Реклама и полиграфия

Кластеризация генов — * кластарызацыя генаў * gene clustering задача разбиения заданной выборки генов на подмножества, называемые кластерами (), так, чтобы каждый кластер состоял из схожих генов, а гены разных кластеров существенно отличались. Задача К. г. относится к … Генетика. Энциклопедический словарь

Кластеризация результатов поиска — Кластеризация результатов поиска группировка результатов поиска в поисковой системе по тому или иному признаку с целью сделать результат поиска более удобным. Например, в корпусной лингвистике при поиске по достаточно большому корпусу может … Википедия

кластеризация диполя — dipolio klasterizacija statusas T sritis chemija apibrėžtis Dipolio susiskaidymas į kelis mažesnius dipolius. atitikmenys: angl. dipole clustering rus. кластеризация диполя … Chemijos terminų aiškinamasis žodynas

Кластеризация документов — Для улучшения этой статьи желательно?: Дополнить статью (статья слишком короткая либо содержит лишь словарное определение). Найти и оформить в виде сносок ссылки на авторитетные источники, подтверждаю … Википедия

Иерархическая кластеризация — (также графовые алгоритмы кластеризации) совокупность алгоритмов упорядочивания данных, визуализация которых обеспечивается с помощью графов. Алгоритмы упорядочивания данных указанного типа исходят из того, что некое множество объектов… … Википедия

Источник

Кластеризация

Кластеризация — это разбиение множества объектов на подмножества (кластеры) по заданному критерию. Каждый кластер включает максимально схожие между собой объекты. Представим переезд: нужно разложить по коробкам вещи по категориям (кластерам) — например одежда, посуда, декор, канцелярия, книги. Так удобнее перевозить и раскладывать предметы в новом жилье. Процесс сбора вещей по коробкам и будет кластеризацией.

Критерии кластеризации определяет человек, а не алгоритм, — этим она отличается от классификации. Этот метод машинного обучения (Machine Learning) часто применяют в различных неструктурированных данных — например если нужно автоматически разбить коллекцию изображений на мини-группы по цветам.

Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами

Кластерный анализ применяют в разных сферах:

Типы входных данных

Признаковое описание объектов

Объект описывается при помощи набора характеристик. Признаки бывают числовые и категориальные. Например, можно кластеризовать группу покупателей на основе их покупок в интернет-магазине. В качестве входных данных будут средний чек, возраст, количество покупок в месяц, любимая категория покупок и другие критерии.

Матрица расстояний между выделенными объектами

Это симметричная таблица, где по строкам и столбцам расположены объекты, а на пересечении — расстояние между ними: например, таблица с расстояниями между отелями в разных городах. Такой способ может помочь выделить кластеры отелей, которые сгруппированы в одной и той же локации.

Освойте самую востребованную технологию искусственного интеллекта. Дополнительная скидка 5% по промокоду BLOG.

Цели кластеризации

Сжатие данных

Кластеризация актуальна, если исходная выборка слишком большая. В результате от каждого кластера остается по одному типичному представителю. Количество кластеров может быть любым — здесь важно обеспечить максимальное сходство объектов внутри каждой группы.

Поиск паттернов внутри данных

Разбиение объектов на кластеры позволяет добавить дополнительный признак каждому объекту. Так, если в результате кластерного анализа выявилось, что определенный покупатель относится к первому кластеру, и мы знаем, что первый кластер — это кластер людей, которые тратят большое количество денег на покупки по средам, то можно сказать, что это покупатель приобретает продукты в основном по средам.

Поиск аномалий

В этом случае выделяют нетипичные объекты, не подходящие ни к одному сформированному кластеру. Интересны отдельные объекты, которые не вписываются ни в одну из сформированных групп.

Методы кластеризации

Общепринятой классификации методов нет, но есть несколько групп подходов.

1. Вероятностный подход. В рамках него предполагается, что каждый из объектов относится к одному из классов.

2. Подходы с учетом систем искусственного интеллекта. Большая условная группа методов, разнится с методической точки зрения.

4. Иерархический подход. Предполагает наличие вложенных групп — кластеров разного порядка. Выделяются агломеративные и дивизионные (объединительные и разделяющие) алгоритмы. В зависимости от количества признаков могут выделяться политетические (используют при сравнении нескольких признаков одновременно) и монотетические (используют при применении одного признака) методы классификации.

Как описать кластеризацию формально?

В кластеризации имеют дело с множеством объектов (X) и множеством номеров кластеров (Y). Задана функция расстояния между объектами ( p). Нужно разбить обучающую выборку на кластеры, так чтобы каждый кластер состоял из объектов, близких по метрике p, а объекты разных кластеров существенно отличались. При этом каждому объекту приписывается номер кластера y(i).

Алгоритм кластеризации — это функция, которая любому объекту X ставит в соответствие номер кластера Y.

Data Science с нуля

Вы получите достаточную математическую подготовку и опыт программирования на Python, чтобы решать задачи машинного обучения.

Источник

Кластеризация: расскажи мне, что ты покупаешь, и я скажу кто ты

Задача Datawiz.io: провести кластеризацию клиентов программы лояльности в ритейле.

Кластеризация — это метод поиска закономерностей, предназначенный для разбиения совокупности объектов на однородные группы (кластеры) или поиска существующих структур в данных.

Целью кластеризации является получение новых знаний. Это как “найти клад в собственном подвале”.

Для чего это нужно компаниям? Чтобы лучше узнать своих клиентов. Чтобы найти индивидуальный подход к каждому клиенту, а не работать со всеми одинаково.

Несмотря на то, что многие компании используют программы лояльности и обладают колоссальными данными, их аналитики сначала определяют персону покупателя, а уже потом анализируют ее поведение.

Решение: Machine Learning позволяет пойти от обратного, от личных предпочтений — к персоне. Мы в Datawiz.io используем кластеризацию как метод группирования клиентов по данным о их поведении – покупках, банковских транзакциях, кредитных историях.

Для кластеризации массива данных (чеки, данные по программах лояльности) мы используем алгоритм K-means. Он хорошо масштабируется и оптимизируется под Hadoop.

Также как альтернативу можно использовать алгоритм Affinity Propagation. Конечно, у него есть ряд существенных минусов: он медленный и плохо масштабируется. Но в частных случаях, при желании и наличии свободного времени, можно использовать его для кластеризации на коротких промежутках времени.

1. Clean Datа.

Прежде, чем формировать матрицу — в обязательном порядке чистим информацию. Убираем то, что не влияет на поведение покупателей и является информационным шумом. Для ритейлеров, например, можно исключить рекламную продукцию, выданные дисконтные карты, скретч-карты, тару и пакеты, покупаемые на кассе. После того как данные очищены приступаем к формированию матрицы.

2. Формируем матрицу с входными данными.

Важно: Результаты кластеризации очень зависят от периода времени, по которому она проводится. Если выберем кроткий период — увидим текущие тренды.

Например, проведя кластеризацию перед Новым годом, увидим кластеры, которые не видны на длительном промежутке времени. (Скажем, кластер “Любители “Оливье” и “Селедки под шубой”). Кластеризация за длительный период позволит увидеть картину в целом, то есть клиентов со стабильным поведением (“лайфстайл”). “Студенты”, “Домохозяйки”, “Пенсионеры” и т.д.

Например, ритейлер хочет провести кластеризацию по программе лояльности за полгода.
У магазина есть чеки Васи, который за полгода купил 1 хлеб, 2 молока и 1 батон; и чеки Оли — она купила 3 хлеба, 5 молока и 2 батона за полгода и т.д.

Значит матрица для этого ритейлера будет выглядеть так:
Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами

Для ритейлера в среднем, features = 15 тыс. SKU, а samples = 60 тыс. клиентов.

Возьмем каждого отдельно клиента, например Васю со всеми его чеками за полгода. В зависимости от количества вхождений всех товаров по всех его чеках, разместим Васю (и других) на графике, где:

количество осей = количеству товаров (features),

количество точек = количеству клиентов (samples), участвующих в программе лояльности.

Наглядное (и очень схематичное:) изображение:
Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами

Но выглядеть результат кластеризации алгоритмом k-means будет так:
Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами

Также можно проводить кластеризацию по разных уровнях категоризации товаров (feature reduction), тогда матрица будет выглядеть так:
Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами

После того, как матрица сформирована, можно переходить к выбору количества кластеров.

3. Выбираем оптимальное количество кластеров.

Количество кластеров мы выбираем экспериментальным путем, исходя из собственного опыта. Малое количество кластеров будет малоэффективно и не информативно, потому что в таком случае мы получаем один-два “мегакластера”, куда будет входить 98% клиентов и несколько бесполезных маленьких кластеров.

При большом количестве кластеров получится слишком много маленьких групп. К тому же никто не хочет анализировать 5000 отдельных мелких кластеров. Для каждого отдельного случая должен быть свой индивидуальный подход.

Для длительных периодов и большого количества кластеров используем K-means.

4. Проводим кластеризацию.

Выбираем алгоритм K-means (или Affinity Propagation), используем Python библиотеку scikit-learn, на вход даем получившуюся матрицу, запускаем кластеризацию.

5. Анализируем результаты кластеризации.

Результатом работы алгоритма является маркировка всех клиентов программы лояльности, в зависимости от их поведения/покупки. Клиенты с одинаковыми поведенческими характеристиками попадают в один кластер.

Если вы проводите кластеризацию за весь период работы, то в ней участвуют все клиенты программы лояльности. Если за определенный период (год, месяц), то в кластеризации участвуют только те клиенты, которые совершили покупки в заданный период.

Итак, мы провели кластеризацию по программе лояльности для ритейлера за полгода, с количеством кластеров 75. Рассмотрим, как распределились по кластерам покупатели, и какие товары предпочитают в тех или иных кластерах:
Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами

— В “Кластер 1” попало 45% клиентов за этот период. Лидерами продаж по товарам здесь стали: масло, бананы, яйца, молоко, батон, сметана.

— В “Кластере 2” оказалось 12% клиентов. Здесь популярнее остальных уже несколько видов хлеба и сметаны, бананы и непродовольственные товары.

— Пять последующих кластеров уже не такие большие, в каждый из них входят лишь по 2-3% клиентов. (В общей сложности в эти кластеры попали 12% клиентов за выбранный период). Здесь предпочтения клиентов весьма интересны, например: молочные продукты+фрукты, печенье+йогурты\сырки, йогурты\десерты+хлопья, курица+пиво+корм для кошек.

— Оставшиеся 31% покупателей рассеяны по 68 кластерам. в которые входят 0,1-2% клиентов. Также кластер может быть очень маленьким и состоять из 1-2 человек. Чем может быть интересен такой кластер? Читайте в кейсах в конце статьи.

При кластеризации алгоритм выявляет нестандартное поведение клиента. Выявить такое поведение поможет анализ отдельных “фич”(характеристик и особенностей) каждого отдельного кластера.

6. Анализируем характеристики каждого кластера.

7. Проводим персонализированную рассылку по каждому кластеру.

Используя кластеризацию клиентов, можно получить четкую систему рекомендаций для персонала — какой товар, какому клиенту и в какое время предлагать.

Зная, что и какой группе людей предлагать, компании смогут избежать метода “ковровой бомбардировки” при sms или e-mail рассылке. Предлагая клиентам только нужные им товары (не забывая про сопутствующие), можно добиться гораздо большего отклика и конверсии в покупку.

Рассмотрим несколько кейсов от Datawiz.io.

Повышение эффективности промо-рассылок с помощью кластеризации.
В результате кластеризации клиентов одной из сети магазинов мы получили 75 кластеров. Для примера рассмотрим три из них: “молодая семья”, “студент” и “пенсионер”.
— Клиенты кластера “молодая семья” были наиболее восприимчивы к предложениям по покупке подгузников, детского питания, фруктов и молока;
— “студентам” предложили скидки на продукты группы фастфуд и пиво;
— а “пенсионерам” на крупы и овощи.
В следствии такой рассылки конверсия в покупку увеличилась на 14,5 %.

Продвижение нового продукта.
Вариант 1. Чтобы узнать кому будет интересен новый продукт, мы сделали рассылку по всех клиентах программы лояльности. По результатах отклика узнали персону покупателя, которой необходимо маркетировать новый продукт. Далее, отследили нужных нам покупателей в кластерах. Провели рассылку уже только по интересующих нас кластерах.

Вариант 2. Компания не захотела проводить рассылку по всех клиентах, так как база весьма обширна. Поэтому мы создали гипотезу, каким кластерам клиентов этот продукт интересен. Из всех интересующих нас кластеров мы взяли рандомно по 1% клиентов и провели по ним тестовую рассылку. С теми кластерами, которые показали наивысшую конверсию в покупку после тестовой рассылки, и работали в дальнейшем, предлагая новый продукт всему кластеру.

Нестандартное поведение клиента.
Мы провели кластеризацию для магазина одной из сети. Алгоритм выдал кластер, в котором было всего 2 клиента. Но внимание привлекла сумма оборота по этому кластеру за небольшой период. Казалось бы, ну покупают люди много разнообразных продуктов и товаров.

Еще одной интересной деталью было то, что много чеков проводились с разницей в несколько минут. Когда же отследили этих клиентов в базе программы лояльности, оказалось, что владельцами двух дисконтных карт были сотрудники магазина.

Вопрос: может сотрудники таким образом склоняли клиентов к покупке? или зарабатывали себе дисконтные баллы? или продавали товар по полной стоимости, а разницу присваивали, то есть, мошенничали?

Источник

Кластеризация

Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами

Кластеризация (англ. cluster analysis) — задача группировки множества объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию.

Задача кластеризации относится к классу задач обучения без учителя.

Содержание

Постановка задачи кластеризации [ править ]

Множество [math]Y[/math] в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

Решение задачи кластеризации объективно неоднозначно по ряду причин:

Теорема невозможности Клейнберга [ править ]

Для формализации алгоритмов кластеризации была использована аксиоматическая теория. Клейнберг постулировал три простых свойства в качестве аксиом кластеризации и доказал теорему, связывающую эти свойства.

Определение:
Алгоритм кластеризации [math]a[/math] является масштабно инвариантным (англ. scale-invariant), если для любой функции расстояния [math]\rho[/math] и любой константы [math]\alpha \gt 0[/math] результаты кластеризации с использованием расстояний [math]\rho[/math] и [math]\alpha\cdot\rho[/math] совпадают.

Первая аксиома интуитивно понятна. Она требует, чтобы функция кластеризации не зависела от системы счисления функции расстояния и была нечувствительна к линейному растяжению и сжатию метрического пространства обучающей выборки.

Определение:
Алгоритм кластеризации является согласованным (англ. consistent), если результат кластеризации не изменяется после допустимого преобразования функции расстояния.

Третья аксиома требует сохранения кластеров при уменьшении внутрикластерного расстояния и увеличении межкластерного расстояния.

Примеры преобразований с сохранением кластеров
Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словамиКластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словамиКластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами
Исходное расположение объектов и их кластеризацияПример масштабной инвариантности. Уменьшен масштаб по оси ординат в два раза.Пример допустимого преобразования. Каждый объект в два раза приближен к центроиду своего класса. Внутриклассовое расстояние уменьшилось, межклассовое увеличилось.

Исходя из этих аксиом Клейнберг сформулировал и доказал теорему:

Типология задач кластеризации [ править ]

Типы входных данных [ править ]

Вычисление матрицы расстояний по признаковому описанию объектов может быть выполнено бесконечным числом способов в зависимости от определения метрики между объектами. Выбор метрики зависит от обучающей выборки и поставленной задачи.

Цели кластеризации [ править ]

Методы кластеризации [ править ]

Кластеризация что это такое простыми словами. Смотреть фото Кластеризация что это такое простыми словами. Смотреть картинку Кластеризация что это такое простыми словами. Картинка про Кластеризация что это такое простыми словами. Фото Кластеризация что это такое простыми словами

Меры качества кластеризации [ править ]

Подробнее про меры качества можно прочитать в статье оценка качества в задаче кластеризации.

Применение [ править ]

Биология и биоинформатика [ править ]

Медицина [ править ]

Маркетинг [ править ]

Кластеризация широко используется при изучении рынка для обработки данных, полученных из различных опросов. Может применяться для выделения типичных групп покупателей, разделения рынка для создания персонализированных предложений, разработки новых линий продукции.

Интернет [ править ]

Компьютерные науки [ править ]

Псевдокод некоторых алгоритмов кластеризации [ править ]

Метод K-средних (Алгоритм Ллойда) [ править ]

Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем объекты снова разбиваются на кластеры в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. Алгоритм завершается, когда на какой-то итерации не происходит изменения внутрикластерного расстояния.

DBSCAN [ править ]

Основная идея метода заключается в том, что алгоритм разделит заданный набор точек в некотором пространстве на группы точек, которые лежат друг от друга на большом расстоянии. Объекты, которые лежат отдельно от скоплений с большой плотностью, будут помечены как шумовые.

На вход алгоритму подаётся набор точек, параметры [math]\epsilon[/math] (радиус окружности) и [math]m[/math] (минимальное число точек в окрестности). Для выполнения кластеризации потребуется поделить точки на четыре вида: основные точки, прямо достижимые, достижимые и шумовые.

Основная точка вместе со всеми достижимыми из нее точками формирует кластер. В кластер будут входить как основные, так и неосновные точки. Таким образом, каждый кластер содержит по меньшей мере одну основную точку.

На выходе получаем разбиение на кластеры и шумовые объекты. Каждый из полученных кластеров [math]C_j[/math] является непустым множеством точек и удовлетворяет двум условиям:

DBSCAN находит практическое применение во многих реальных задачах, например, в маркетинге: необходимо предложить покупателю релевантный товар, который подойдет под его заказ. Выбрать такой товар можно, если посмотреть на похожие заказы других покупателей — в таком случае похожие заказы образуют кластер вещей, которые часто берут вместе. Похожим образом с помощью DBSCAN можно исследовать и находить общие интересы людей, делить их на социальные группы, моделировать поведение посетителей сайта. Алгоритм также может использоваться для сегментации изображений.

Пример кода [ править ]

Пример на языке R [ править ]

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Теорема (Клейнберга, о невозможности):