Вход
Регистрация

Работа узла Разбиение на множества

Добрый день.

Поясните, пожалуйста, как работает пункт Метод выбора данных "стратифицированный" в узле Разбиение на множества.

У меня данные равномерно разбиты на 9 кластеров, т.е. в каждом кластере почти одинаковое кол-во записей. Целая дискретная переменная со значениями от 0 до 8 выбрана как поле, определяющее страты.
Обучающее множество 80%, тестовое 20%

На выходе я получаю обучающее очень похожим на полное. В каждой страте (всего их 9) около 80%. В тестовом же полностью отсутствуют данные для страт 0 и 1, а остальные неравномерны. Причем суммарное число записей в тестовом множестве меньше чем 20% всего исходного набора данных. Вряд ли так было задумано.