Анализ с помощью характеристической кривой (ROC-analisys)

Синонимы: ROC-анализ

Разделы: Визуализация, Алгоритмы

ROC-анализ представляет собой графический метод оценки качества работы бинарного классификатора и выбора дискриминационного порога для разделения классов. В основе метода лежит построение ROC-кривой (ROC — receiver operating characteristic — рабочая характеристика приёмника) — графического представления зависимости двух величин: чувствительности и специфичности.

Под чувствительностью ( $S e$ — sensitivity) бинарной модели понимается доля истинно-положительных классификаций в общем числе положительных наблюдений ( $T P R$ — true-positive rate):

$S e = T P R = \frac{T P}{P} = \frac{T P}{T P + F N}$

Это есть доля правильно классифицированных положительных наблюдений. Следовательно, чем выше чувствительность, тем более надёжно классификатор распознаёт положительные примеры.

Под специфичностью ( $S p$ — specify) модели понимается доля истинно-отрицательных классификаций в общем числе отрицательных наблюдений ( $T N R$ — true-negative rate):

$S p = T N R = \frac{T N}{N} = \frac{T N}{T N + F P}$

Таким образом, чем выше специфичность, тем более надёжно классификатор распознаёт отрицательные наблюдения.

По вертикальной оси графика ROC-кривой представлена чувствительность, а по горизонтальной — величина, равная $1 - S p$ . Можно показать, что

$1 - S p = F P R = \frac{F P}{N} = \frac{F P}{T N + F P}$

Это доля ложно-положительных классификаций в общем числе отрицательных классификаций, которую можно интерпретировать как вероятность «ложной тревоги».

Таким образом, ROC-кривая отражает связь между вероятностью ложной тревоги (доли ложно-положительных классификаций) и вероятностью «правильного обнаружения» (доли истинно-положительных классификаций). С ростом чувствительности растёт надёжность распознавания положительных наблюдений (снижается вероятность «пропуска цели»), но при этом растёт вероятность ложной тревоги.

ROC-кривая

На рисунке линии [(0,0); (0, 100)] и [(0,100); (100, 100)] образуют ROC-кривую идеального классификатора, когда рост чувствительности (надёжности классификации) вообще не сопровождается ростом вероятности ложной тревоги. Это мало реальный случай, когда точность классификации положительных наблюдений вообще не зависит от уровня дискриминационного порога.

Обычно ROC-кривая реальной модели имеет параболическую форму с различной кривизной. При этом, чем выше кривизна и кривая ближе к идеальной, тем лучше работает модель. При ухудшении качества модели ROC-кривая вырождается в диагональную прямую линию, которая соответствует «бесполезному» классификатору, который предсказывает классы случайным образом.

ROC-анализ применяется для оценки качества моделей: позволяет аналитику выбрать модель с наилучшей прогностической силой, проанализировать чувствительность и специфичность моделей, подобрать порог отсечения. Подробнее в статье «Логистическая регрессия и ROC-анализ — математический аппарат».

В Loginom существует специализированный визуализатор качество бинарной классификации, в котором строятся диаграммы (в том числе ROC-кривая) и таблицы с результатами проведенной классификации на основе логистической регрессии. А решение Loginom Scorecard Modeler, автоматизирующее процесс построения скоринговых карт, включает оценку качества модели при помощи ROC-кривой.