Область применения
Метод "сигм" позволяет проверить данные на наличие в них аномальных значений. С помощью этого метода так же можно осуществлять контроль за нахождением параметра в допустимых границах, что удобно в производственных процессах.
Описание
Анализ выбросов в данных методом «сигм» позволяет определить аномальные значения в нестационарных рядах с распределением близким к нормальному.
Основу данного метода анализа составляет расчет среднего значения ряда и среднеквадратичного отклонения.
Формула для вычисления среднего значения ряда:
$\bar{x}=\frac{1}{n}\sum \limits_{i=1}^{n}x_i$,
где
$n$ — количество элементов выборки,
$x_i$ — $i$-й элемент выборки.
Формула для вычисления среднеквадратичного отклонения (СКО):
$$\sigma=\sqrt{\frac{1}{n}\sum \limits_{i=1}^{n}(x_i-\bar{x})^2}$$
Суть данного метода сводится к тому, что любые значения ряда, отличающиеся от среднего больше, чем на два СКО, являются потенциальными аномалиями. Порог определения аномалий задаётся формулой:
$$T=x_i\pm{2\times\sigma}$$
Алгоритм
- Строим гистограмму. Из графика распределения видно, что в исходных данных присутствуют значения явно отстоящее от остальных.
- Определение аномальных значений с помощью обработчика "Калькулятор":
- определение среднего значения и СКО;
- определить порог (T) классификации значения как аномалии;
- если аномалий оказалось очень много, имеет смысл увеличить порог – задать его равным $3 \times \sigma ,\ 4 \times \sigma $ и более.
Требования к данным
Имя поля | Метка поля | Тип данных | Вид данных |
---|---|---|---|
Date | Дата | Дата/Время | Непрерывный |
Goods | Наименование | Строковый | Дискретный |
Quantity | Количество | Вещественный | Непрерывный |
Сценарий