Вход
Регистрация

Бутстрэп

Bootstrap
Синонимы на русском: 
Выборка с возвратом, Выборка с замещением

Метод формирования нескольких выборок данных того же размера, что и исходная генеральная совокупность, но с разными распределениями интересующей величины. Бутстрэп был предложен в 1977 году Б. Эфроном. Этот метод представляет разновидность рандомизированной обработки данных.

Предполагается, что множество данных содержит N наблюдений, образующих генеральную совокупность, из которой извлекаются выборки N с равными вероятностями (1/N) для каждого наблюдения. Всего получают K выборок, по каждой из которых оценивается интересующий параметр исследуемой величины. Затем полученные оценки усредняются.

В Data Mining бутстреп используется с целью формирования независимых выборок данных для обучения нескольких моделей, обычно объединяемых в ансамбль, или для получения более достоверной ошибки одной. Пусть имеется набор данных, содержащий m примеров. Тогда с помощью бутстрепа можно сформировать ряд выборок, также содержащих m примеров, но отобранных в случайном порядке. При этом каждая из них может быть извлечена несколько раз. Следовательно, одни примеры могут оказаться многократно продублированы, а другие – не появиться ни разу. Таким образом, полученные с помощью бутстрэпа подмножества, скорее всего, будут иметь различное распределение данных, что позволит обеспечить независимое обучение некоторого количества моделей на единственном наборе.

Ансамбли моделей, построенные на бутсрэп-выборках, во многих случаях позволяют улучшить точность классификации по сравнению с одиночными. Кроме этого, если обучить одну и ту же модель на нескольких таких выборках и усреднить полученные ошибки, то средняя будет более достоверной оценкой ее точности.

Рассылка материалы о Loginom