Вход
Регистрация

Поиск аномалий с помощью правила сигм

Область применения

Метод "сигм" позволяет проверить данные на наличие в них аномальных значений. С помощью этого метода так же можно осуществлять контроль за нахождением параметра в допустимых границах, что удобно в производственных процессах.

Описание

Анализ выбросов в данных методом «сигм» позволяет определить аномальные значения в нестационарных рядах с распределением близким к нормальному.

Основу данного метода анализа составляет расчет среднего значения ряда и среднеквадратичного отклонения.

Формула для вычисления среднего значения ряда:

$\bar{x}=\frac{1}{n}\sum \limits_{i=1}^{n}x_i$,

где

$n$ — количество элементов выборки,
$x_i$ — $i$-й элемент выборки.

Формула для вычисления среднеквадратичного отклонения (СКО):

$$\sigma=\sqrt{\frac{1}{n}\sum \limits_{i=1}^{n}(x_i-\bar{x})^2}$$

Суть данного метода сводится к тому, что любые значения ряда, отличающиеся от среднего больше, чем на два СКО, являются потенциальными аномалиями. Порог определения аномалий задаётся формулой:

$$T=x_i\pm{2\times\sigma}$$

Алгоритм

  1. Строим гистограмму. Из графика распределения видно, что в исходных данных присутствуют значения явно отстоящее от остальных.
    Рисунок 1 – Гистограмма исходной выборки
  2. Определение аномальных значений с помощью обработчика "Калькулятор":
    • определение среднего значения и СКО;
    • определить порог (T) классификации значения как аномалии;
    • если аномалий оказалось очень много, имеет смысл увеличить порог – задать его равным $3 \times \sigma ,\ 4 \times \sigma $ и более.
Рисунок 2 – Сценарий выявления аномалий в данных методом "сигм"
Рисунок 3 – Графический отчет

Требования к данным

Имя поля Метка поля Тип данных Вид данных
Date Дата Дата/Время Непрерывный
Goods Наименование Строковый Дискретный
Quantity Количество Вещественный Непрерывный

Сценарий