Вход
Регистрация

Конечные классы

Обработчик Конечные классы позволяет уменьшить число значений исходного набора данных за счет их объединения в пределах некоторого интервала с использованием информации о бинарной выходной переменной.

Назначение

Данный обработчик предназначен для решения следующих задач:

  • Снижение разнообразия значения признаков без ущерба для информативности данных;
  • Снижение размерности данных за счет исключения признаков с низкой значимостью;
  • Восстановление пропусков;
  • Борьба с выбросами и экстремальными значениями;
  • Упрощение описания исследуемых объектов.

Описание алгоритма

Название обработчика идет от англоязычного аналога Fine&Coarse Classing. Процедура сокращения уникальных значений признака classing состоит из двух шагов:

  • Формирование исходного множества уникальных значений поля до обработки, или начальных классов (fine classing);
  • "Сжатие" начальных классов в меньшее количество интервалов, называемых конечными классами (coarse classing).

Для формирования конечных классов используется метод WoE-анализа (weights of evidence), где каждому наблюдению, содержащему набор признаков, ставится в соответствие бинарная выходная переменная (событие или не-событие в зависимости от логики решения задачи).

Затем производится разбиение всего диапазона изменения того или иного признака на несколько начальных классов, для каждого из которых вычисляется коэффициент WoE:

$WoE_i=ln \frac{F^{-}}{F^{+}}$, где

  • $i$ - индекс начального класса;
  • $F^{-}$ - относительная частота появления не-событий в классе;
  • $F^{+}$ - относительная частота появления событий в классе.

На основе коэффициентов WoE вычисляется величина, определяющая значимость признака в модели бинарной классификации, называемая информационным индексом (information value, IV) по формуле:

$$IV=\sum_{i=1}^k \biggl\{ \Bigl( \frac{N_i}{N}- \frac{P_i}{P} \Bigr) \times WoE_i \biggr\}$$

Информационный индекс всегда является положительной величиной. На основе IV определяется значимость признака по следующей методике:

  • $IV < 0,02$ - отсутствует;
  • $0,02 \leq IV < 0,1$- низкая;
  • $0,1 \leq IV < 0,3$ - средняя;
  • $IV > 0,3$ - высокая.

Коэффициенты WoE и вычисленные на их основе значения IV являются критерием для формирования конечных классов оптимальным образом:

  • максимизируя значимость признака в бинарной классификационной модели;
  • максимизируя равномерность заполнения интервалов, что обеспечивает наилучшую репрезентативность результатов;
  • компромисс между этими вариантами.