Вход
Регистрация

Непонятки с мерами эффективности деревьев решений

Здравствуйте.
Вопросы по мерам эффективности деревьев решений.

В книге "Бизнес-аналитика: от данных к знаниям" на стр. 401 вводятся понятия поддержки и достоверности. Поддержка определяется как отношение правильно классифицированных примеров в узле/листе к общему числу примеров, попавших в узел/лист. Достоверность - отношение числа правильно классифицированных примеров к числу неправильно классифицированных примеров.

Таким образом, Поддержка - это число в интервале [0,1], а Достоверность может принимать любые сколь угодно большие неотрицательные значения.

Строю дерево решений по данным файла loans.txt (входит в поставку Deductora). Получаю дерево, в котором на вкладке Дерево решений напротив каждого узла/листа Поддержка выражается числом, больше 1, (что не стыкуется с теорией), а Достоверностьвыражается целым положительным числом (что, вообще-то говоря, маловероятно, если следовать определению).

Более того, на вкладке Правила опять приводятся значения Поддержки и Достоверности, в виде пар колонок из целых чисел и процентов.

Из справки к программе удается узнать, что:"Поддержка - указываются значения поддержки, как по числу записей, так и в процентном отношении этого числа к полному объему выборки." Вопрос: "как по числу записей" - это о чем?

Там же читаем:"Достоверность - указываются значения достоверности, как по числу записей, так и в процентном отношении этого числа от общего числа примеров, попавших в данное правило."
Вопросы:
1) О каких числах тут идет речь?
2) Как достоверность может быть выражена в процентах?
3) Судя по числам, получается, что процент достоверности вычисляется как отношение числа в колонке Достоверность к числу в колонке Поддержка. А что это за числа - непонятно.

PS: Еще есть вкладка Значимость атрибутов, на которой приводится значение таинственного показателя "Значимость атрибутов", описание которого мне найти не удалось.

Хотелось бы внести ясность в этом вопросе.

С уважением,
Богданов Александр.