Кросс-валидация (Cross-validation)

Синонимы: Перекрестная проверка, Rotation estimation

Loginom: Валидация моделей

Кросс-валидация — это метод оценки аналитической модели и её поведения на независимых данных с наиболее равномерным использованием имеющихся данных.

В основе метода лежит разделение исходного множества данных на примерно равных блоков, например . Затем на , т.е. на 4-х блоках, производится обучение модели, а 5-й блок используется для тестирования. Процедура повторяется раз, при этом на каждом проходе для проверки выбирается новый блок, а обучение производится на оставшихся.

Кросс-валидация

Перекрестная проверка имеет важное преимущества перед применением одного множества для обучения и одного для тестирования модели: если при каждом проходе оценить выходную ошибку модели и усреднить ее по всем проходам, то полученная ее оценка будет более достоверной.

На практике чаще всего выбирается (10-ти проходная перекрестная проверка), когда модель обучается на 9/10 данных и тестируется на 1/10. Исследования показали, что в этом случае получается наиболее достоверная оценка выходной ошибки модели.