Вход
Регистрация

Что такое "свойство полноты"?

В некоторых ситуациях, например, при настройке узла "Кластеризация" или в ходе построения логистической регрессии, появляется сообщение: "В обучающем наборе данных уникальные значения следующих полей не обладают свойством полноты: ... ". Что такое "свойство полноты" и как поступить в данной ситуации?

Сообщение "В обучающем наборе данных уникальные значения следующих полей не обладают свойством полноты: ..." показывает, что обучающее множество не содержит всех известных в наборе значений перечисленных полей, то есть необходимо иначе настроить разбиение на обучающее/тестовое множества.

Существуют следующие возможные решения данной проблемы:

  • сделать указанные в сообщении поля непрерывными;
  • в случае такого сообщения для действительно дискретных полей, измеренных в шкале отношений или порядка, требуется предварительно провести "тонкий" сэмплинг, для того чтобы все уникальные значения переменной присутствовали как в обучающей, так и в тестовой выборке (или только в обучающей). Для этого в узлах "Сэмплинг" и "Разбиение на множества" есть флаг "Включать все уникальные значения".
Вопросы по теме:
Рассылка материалы о Loginom