Обработчик Редактирование выбросов предназначен для автоматической корректировки аномальных значений в наборах данных - отклонений от нормального (ожидаемого) поведения чего-либо.
Для повышения гибкости обработки аномальных значений в узле предусмотрена возможность их разделения, поскольку они в большинстве случаев имеют различное происхождение:
Для каждого типа отклонений определяется собственный порог обнаружения, что позволяет сделать процедуру очистки данных более соответствующей логике решаемой задачи (по умолчанию это 3 стандартных отклонения для выброса, 5 стандартных отклонений для экстремального значения).
Для каждого столбца исходного набора данных пользователь может выбрать подходящий метод выявления и редактирования выбросов и экстремальных значений. Алгоритмы поиска и набор методов для борьбы с выбросами в зависимости от вида данных столбца и того, считается набор данных упорядоченным или нет, приведены в таблице.
Метод | Неупорядоченное поле | Упорядоченное поле | ||
---|---|---|---|---|
Непрерывное | Дискретное | Непрерывное | Дискретное | |
Оставить без изменения | + | + | + | + |
Удалять записи | + | + | ||
Ограничивать | + | + | + | + |
Заменять наиболее вероятным | + | + | + | + |
Заменять средним | + | + | ||
Заменять медианой | + | + | ||
Заменять заданным значением… | + | + | ||
Сглаживать | + |
Особый интерес представляет метод Ограничивать – приведение экстремального значения или выброса к значению, превышение которого определяется как выброс.
Задача редактирования выбросов во многих случаях сводится к задаче заполнения пропусков – выброс заменяется пропуском, и к нему применяются те или иные методы, доступные также и в узле Заполнение пропусков.