Добрый день!
Есть несколько вопросов по деревьям решений
наскольок я понимаю, оценку точности классификатора можно производить несколькими способами:
- через вероятность ошибки модели
- через кросс проверку правильности классификации (классификационную матрицу)
- коэф Джини
- показатель Lift
и еще при помощи точности работы модели на контрольной выборке (кросс проверка).
Как быть если лучшая модель по разным критериям - разная. Какой критерий считать наиболее важным?
Спасибо
Не совсем понятно, что такое "вероятность ошибки модели"?
Из перечисленных Вами критериев сравнения важным, наверное, является классификационная матрица (на обучающей и тестовой выборке).
Все остальные - вторичные и специфичные, зависящие от самой задачи, например, если известны издержки ошибок классификации, то строится кривая доходности и т.д.
Спасибо за ответ!
В используемом мной ПО ошибка называется Risk Error наскольок я поняла - это оценка точности дерева). Она например, для модели 1 на уровне 0, 237, а для модели 2 - 0,28.
А классификационная матрица по модели 1 показывает худшие результаты.
При этом размер площади по коэф Джини по первой также больше. Правильно ли считать в этом случае вторую модель как более правильную?
Спасибо!