Обработчик Конечные классы позволяет уменьшить число значений исходного набора данных за счет их объединения в пределах некоторого интервала с использованием информации о бинарной выходной переменной.
Данный обработчик предназначен для решения следующих задач:
Название обработчика идет от англоязычного аналога Fine&Coarse Classing. Процедура сокращения уникальных значений признака classing состоит из двух шагов:
Для формирования конечных классов используется метод WoE-анализа (weights of evidence), где каждому наблюдению, содержащему набор признаков, ставится в соответствие бинарная выходная переменная (событие или не-событие в зависимости от логики решения задачи).
Затем производится разбиение всего диапазона изменения того или иного признака на несколько начальных классов, для каждого из которых вычисляется коэффициент WoE:
$WoE_i=ln \frac{F^{-}}{F^{+}}$, где
На основе коэффициентов WoE вычисляется величина, определяющая значимость признака в модели бинарной классификации, называемая информационным индексом (information value, IV) по формуле:
$$IV=\sum_{i=1}^k \biggl\{ \Bigl( \frac{N_i}{N}- \frac{P_i}{P} \Bigr) \times WoE_i \biggr\}$$
Информационный индекс всегда является положительной величиной. На основе IV определяется значимость признака по следующей методике:
Коэффициенты WoE и вычисленные на их основе значения IV являются критерием для формирования конечных классов оптимальным образом: