Вход
Регистрация

Войти c помощью аккаунта

Кластеризация транзакций

Используется для обработки огромных массивов транзакционных данных, разбивая их таким образом, чтобы похожие операции оказались в одном кластере, а отличающиеся друг от друга – в разных.

Примеры применения

Кластеризация клиентов на основании их поведенческих характеристик. Алгоритм позволяет выявить часто встречающиеся профили клиентов, обнаружить сходство в их рыночных корзинах. Это дает возможность строить эффективные программы лояльности, учитывающие особенности каждой группы покупателей, а не сводящиеся к банальному предоставлению скидок.

Поведенческий таргетинг - использование информации о действии пользователя в интернете (просмотренных сайтах, поисковых запросах, покупках в интернет-магазинах и т. д.). Алгоритм позволяет четко представлять портрет объекта, узнать его привычки и пристрастия, на основании чего происходит выбор целевой аудитории, заинтересованной в предлагаемом товаре или услуге. Это дает возможность реализовывать более эффективные маркетинговые кампании, повышать эффективность взаимодействия с клиентами.

Противодействие мошенничеству. Алгоритм позволяет выделить подозрительные транзакции, выполнить кластеризацию по группам и степени рисков. Эта информация является основой для построения «риск-профиля» компании и системы противодействия мошенничеству.

Описание алгоритма

Кластеризация транзакций реализована на основе алгоритма CLOPE. Входными данными являются транзакции: чеки в супермаркетах, клиентские транзакции, логи посещений веб-ресурсов, список ключевых слов статьи, множество симптомов пациента, характерные фрагменты изображения…

Реализация алгоритма требует первого прохода по таблице транзакций для построения начального разбиения, определяемого функцией стоимости. После этого требуется незначительное количество дополнительных сканирований таблицы для повышения качества кластеризации и оптимизации функции стоимости. Благодаря этому производительность и скорость работы выше, чем при попарном сравнении транзакций, в чём CLOPE обходит алгоритм k-means и g-means.

Благодаря высокой скорости и масштабируемости алгоритм, CLOPE часто применяется для разведочного анализа.

Математический аппарат и реализация алгоритма рассмотрены в статье «Кластеризация категорийных данных: масштабируемый алгоритм CLOPE».