Вход
Регистрация

Редактирование выбросов

Обработчик Редактирование выбросов предназначен для автоматической корректировки аномальных значений в наборах данных - отклонений от нормального (ожидаемого) поведения чего-либо.

Для повышения гибкости обработки аномальных значений в узле предусмотрена возможность их разделения, поскольку они в большинстве случаев имеют различное происхождение:

  • выбросы – это фактически имевшие место события, вызванные исключительными условиями;
  • экстремальные значения – это, как правило, ошибки или фиктивные значения.

Для каждого типа отклонений определяется собственный порог обнаружения, что позволяет сделать процедуру очистки данных более соответствующей логике решаемой задачи (по умолчанию это 3 стандартных отклонения для выброса, 5 стандартных отклонений для экстремального значения).

Для каждого столбца исходного набора данных пользователь может выбрать подходящий метод выявления и редактирования выбросов и экстремальных значений. Алгоритмы поиска и набор методов для борьбы с выбросами в зависимости от вида данных столбца и того, считается набор данных упорядоченным или нет, приведены в таблице.

Метод Неупорядоченное поле Упорядоченное поле
Непрерывное Дискретное Непрерывное Дискретное
Оставить без изменения + + + +
Удалять записи + +
Ограничивать + + + +
Заменять наиболее вероятным + + + +
Заменять средним + +
Заменять медианой + +
Заменять заданным значением… + +
Сглаживать +

Особый интерес представляет метод Ограничивать – приведение экстремального значения или выброса к значению, превышение которого определяется как выброс.

Задача редактирования выбросов во многих случаях сводится к задаче заполнения пропусков – выброс заменяется пропуском, и к нему применяются те или иные методы, доступные также и в узле Заполнение пропусков.