Вход
Регистрация

Сэмплинг

Сэмплинг используется для сведения задачи анализа всех доступных данных, что требует больших (часто неприемлемых) временных и вычислительных затрат, к анализу ограниченной выборки, в достаточной мере отражающей свойства всей исследуемой совокупности.

Примеры применения

На практике в бизнес-аналитике применяется подход, когда для анализа из исходного набора данных формируется новое. Это обусловлено различными обстоятельствами, в том числе:

Снижение трудоемкости алгоритмов Data Mining. При анализе сравнительно небольшого подмножества данных временные и вычислительных затраты значительно сокращаются.

Коррекция распределений значений переменных в выборке. В некоторых случаях исходное распределение значений факторов в имеющимся наборе данных может негативно сказываться на процессе обучения модели. Типичный пример – несбалансированность классов в задаче кредитного скоринга. Коррекция распределений может заключаться, например, в увеличении числа объектов с требуемыми характеристиками (oversampling), в сокращении избыточных примеров (undersampling).

Описание алгоритма

Узел Сэмплинг реализует пять методов отбора записей (единиц) в выборку из набора данных (генеральной совокупности). При этом формируется репрезентативное подмножество, обеспечивающее информационную насыщенность выборки.

Случайный: выборка производится случайным образом из всей совокупности;

Равномерный случайный: все записи исходной совокупности разделяются на группы, в каждой из которых содержится одинаковое число записей. Затем из каждой группы случайным образом выбирается одна запись и помещается в результирующую выборку. Выборка, полученная в результате сэмплинга, будет состоять из записей, случайным образом отобранных из каждой группы.

Стратификационный сэмплинг. Если исходная совокупность существенно неоднородна, случайный сэмплинг работает плохо и лучших результатов удается добиться, если производить выборку каждой группы, независимо от других групп. Стратификационный сэмплинг выполняется в два этапа:

  • Стратификация – группировка элементов исходной совокупности в относительно однородные подгруппы, которые называются стратами или слоями.
  • Случайный сэмплинг – случайная выборка из каждого слоя по отдельности.

Последовательный: выборка производится последовательным образом из всей совокупности, пока не будет достигнут требуемый объем.

Отбор со смещением. Иногда исследователи сталкиваются с ситуацией, когда важные с точки зрения решаемой задачи объекты или события представлены очень небольшим числом наблюдений, что не позволяет выполнить их достоверный анализ. В таких случаях применяется Отбор со смещением – «перевзвешивание» примеров, или изменение соотношения принадлежности записей к классам.

Искусственное усиление представительства редких событий или объектов выборки рассмотрено в статье «Различные стратегии сэмплинга в условиях несбалансированности классов».