Только что завершился очередной очный весенний тренинг "Разработка скоринговых моделей", на котором тема определения события при формировании выборки для моделирования вызвала большой интерес слушателей. Давайте разберемся, почему.
Напомним: событие и не-событие – ключевые понятия любой бинарной классификационной модели, а также модели, оценивающей вероятность наступления какого-либо события. Многим практикующим аналитикам может показаться странным тот факт, что мы посвящаем целый блок на тренинге теме, связанной с определением события. Риск-аналитики, разрабатывающие кредитные скоринговые карты, часто выбирают в качестве события выход на просрочку 90+ (90 дней и более) в течение первого года выплат. Однако если рассматривать области применения скоринговых моделей шире, то обнаружится, что в ряде областей, таких как ритейл, телекоммуникации, различные массовые услуги, определение события – нетривиальная задача.
В зависимости от ситуации можно столкнуться со следующими вопросами.
Иллюстрацию этих вопросов начнем с таблицы, в которой приведены примеры событий из различных областей и их связь с целями моделирования.
Область | Цель моделирования | Событие |
---|---|---|
МФО | Максимизация дохода | Возврат займа в срок |
Ритейл | Предотвратить уход клиента | Клиент не совершает покупки |
Телеком | Предотвратить отток клиента | Клиент расторгнул контракт |
Розничный банк | Повысить отклик на персональное предложение | Отклик на предложение |
Так, в микрофинансах скоринговая модель может оценивать вероятность возврата займа в срок. Но практика показывает, что точно в срок займ отдают менее 10% клиентов (из тех, кто вообще его вернул с уплатой штрафов и пеней). Остальные заемщики возвращают займ с задержками от нескольких дней до нескольких недель (см. рисунок ). Что выбрать событием, если наша цель – максимизировать доход? Очевидно, что событие «вернул точно в срок» не обеспечивает движение к этой цели.
В розничной торговле при построении скоринговых моделей оценки вероятности ухода клиента само событие ухода обычно означает отсутствие ненулевых транзакций (покупок с суммой чека больше 0). По сути, клиент «засыпает» на неопределенное время. Но он не предупреждает компанию о том, что больше не будет совершать покупки в ее магазинах. Таким образом, компания не может с достоверностью сказать, что в случае, если клиент сделал покупку n периодов назад, то он больше не вернется в компанию. И возникает проблема с определением периода, начиная с которого клиента считать «уснувшим».
В телекоммуникационных компаниях скоринговые модели часто используются для оценки вероятности ухода абонента. Поскольку в таких компаниях частый случай – это обязательства по ежемесячному внесению абонентской платы, то проблем с определением ухода не возникает – в случае ухода абонент либо перестает платить, либо явно расторгает договор.
Итак, событие есть – абонент расторгнул контракт. Мы готовим обучающую выборку, имея, к примеру, данные о потребленных услугах и их характере (тарифные планы, трафик и т.д.) за 11 месяцев – с января по ноябрь. Далее нам осталось зафиксировать событие – клиент расторгнул контракт в декабре, и построить модель.
Но применить построенную модель для наших целей – предотвратить отток клиента – нам не удастся. Лучше всего объяснить это на простом жизненном примере «человека, сидящего в самолете».
Давайте представим, что человек собрался эмигрировать из страны. Это взвешенное решение, которое долго обдумывается. Порядок действий может быть такой: мысль уехать – покупка билетов – аэропорт – посадка в самолет.
Если мы имеем целью удержать человека в родной стране, то прогноз вероятности того, что он находится в самолете (впрочем, и в аэропорте тоже) нам бесполезен – делать что-то, что вернет его на родину, поздно. Все потому, что событие в данном случае – появление у человека мысли уехать, которая приведет в конечном итоге к эмиграции, но никак не сам факт нахождения в самолете. Предсказывая такие намерения (мысли), мы сможем предпринять действия по удержанию человека.
На тренинге участники подробно на реальных кейсах разобрали основные «подводные камни» и подходы к определению событий в различных отраслях, увидели, как идеи винтажного и когортного анализа можно применить к ритейлу и телекому. Ведь сегодня спектр применения скоринговых моделей все чаще и чаще выходит за границы банковской отрасли.
Следующий очный тренинг по разработке скоринговых моделей пройдет в октябре. Набор группы уже открыт!