Множество тестовое (Test set)

Синонимы: Выборка тестовая

Loginom: Разбиение на множества

В машинном обучении тестовое множество — это подмножество обучающего набора данных, содержащее тестовые примеры, т.е. примеры, использующиеся не для обучения модели, а для проверки его результатов.

Примеры тестового множество так же, как и обучающего множества, предъявляются модели в процессе обучения, но не используются для подстройки ее параметров. Цель применения тестового множества — проверить, как обученная модель будет работать с новыми данными, т.е. приобрела ли она обобщающую способность. Ошибка модели, полученная на тестовом множестве, называется ошибкой обобщения.

Если ошибки на тестовом и обучающем множествах достаточно малы, то это с достаточной долей уверенности позволяет утверждать, что модель приобрела способность к обобщению и может использоваться для работы с новыми данными. Если малая ошибка достигнута только на обучающем множестве, а на тестовом она велика, то это позволяет предположить низкую способность к обобщению.

Обычно, тестовое множество формируется путем случайной выборки из исходного набора данных. Что касается размеров тестового множества, то никаких особых рекомендаций на этот счет не существует.

При разделении исходной выборки на обучающее и тестовое множества, главное — обеспечить репрезентативность обучающего множества, а все оставшиеся примеры можно использовать в качестве тестовых. Однако если объем исходной выборки недостаточен для формирования обучающего и тестового множеств, то используют специальные методы, такие как перекрестная проверка, бустрэп-выборка и т.д.