Сэмплинг используется для сведения задачи анализа всех доступных данных, что требует больших (часто неприемлемых) временных и вычислительных затрат, к анализу ограниченной выборки, в достаточной мере отражающей свойства всей исследуемой совокупности.
На практике в бизнес-аналитике применяется подход, когда для анализа из исходного набора данных формируется новое. Это обусловлено различными обстоятельствами, в том числе:
Снижение трудоемкости алгоритмов Data Mining. При анализе сравнительно небольшого подмножества данных временные и вычислительных затраты значительно сокращаются.
Коррекция распределений значений переменных в выборке. В некоторых случаях исходное распределение значений факторов в имеющимся наборе данных может негативно сказываться на процессе обучения модели. Типичный пример – несбалансированность классов в задаче кредитного скоринга. Коррекция распределений может заключаться, например, в увеличении числа объектов с требуемыми характеристиками (oversampling), в сокращении избыточных примеров (undersampling).
Узел Сэмплинг реализует пять методов отбора записей (единиц) в выборку из набора данных (генеральной совокупности). При этом формируется репрезентативное подмножество, обеспечивающее информационную насыщенность выборки.
Случайный: выборка производится случайным образом из всей совокупности;
Равномерный случайный: все записи исходной совокупности разделяются на группы, в каждой из которых содержится одинаковое число записей. Затем из каждой группы случайным образом выбирается одна запись и помещается в результирующую выборку. Выборка, полученная в результате сэмплинга, будет состоять из записей, случайным образом отобранных из каждой группы.
Стратификационный сэмплинг. Если исходная совокупность существенно неоднородна, случайный сэмплинг работает плохо и лучших результатов удается добиться, если производить выборку каждой группы, независимо от других групп. Стратификационный сэмплинг выполняется в два этапа:
Последовательный: выборка производится последовательным образом из всей совокупности, пока не будет достигнут требуемый объем.
Отбор со смещением. Иногда исследователи сталкиваются с ситуацией, когда важные с точки зрения решаемой задачи объекты или события представлены очень небольшим числом наблюдений, что не позволяет выполнить их достоверный анализ. В таких случаях применяется Отбор со смещением – «перевзвешивание» примеров, или изменение соотношения принадлежности записей к классам.
Искусственное усиление представительства редких событий или объектов выборки рассмотрено в статье «Различные стратегии сэмплинга в условиях несбалансированности классов».