Медиана (Median)

Синонимы: Медиана статистическая, Непараметрическая средняя

Разделы: Метрики

Медиана (от лат. mediana — средина, срединный) — статистическая характеристика распределения случайной величины. Наряду с модой и математическим ожиданием медиана определяет центр распределения, т.е. область, в которой его значения наиболее вероятны.

На практике это означает, что если признак некоторого объекта принимает значение, близкое к медианному, то оно является типичным для данной выборки. Если же значение оказывается далёким от медианы (как говорят, расположено в «хвосте» распределения), то у аналитика возникает повод задуматься о том, какими закономерностями исследуемого процесса вызвано такое отклонение и не является ли оно выбросом или аномальным значением.

Если определять медиану в контексте распределения случайной величины, то она представляет собой значение, которое делит площадь под кривой функции распределения на две равные части. Это означает, что суммарные вероятности значений слева и справа от медианы равны, т.е.

,

где — случайная величина, — медиана.

Медиана, мода, среднее

Если распределение симметричное, то мода, математическое ожидание и медиана совпадают. Если симметрия распределения нарушается, то медиана смещается от моды в сторону более длинного «хвоста». При этом медиана всегда меньше математического ожидания.

Медиана относится к классу непараметрических статистик, поскольку для её определения не требуется каких-либо предположений о распределении случайной величины, для которой она вычисляется. Медиана имеет смысл только для упорядочиваемых данных, значения которых могут быть ранжированы.

Если случайная величина задана не функцией распределения вероятности , а набором выборочных значений признака (дискретным рядом), то медиана вычисляется следующим образом:

  1. Упорядочить (расположить в порядке неубывания) значения набора данных: , где — количество элементов выборки.

  2. Определить номер медианного элемента выборки по формуле .

Полученное значение будет точно показывать, где находится элемент ряда, значение которого является медианным.

Например, пусть задана последовательность [7, 14, 10, 12, 16, 9, 11]. Для вычисления медианы упорядочим её: [7, 9, 10, 11, 12, 14, 16]. Тогда номер медианного элемента , следовательно, медиана равна 11.

Расчет медианы

Если чётное, то номер медианного элемента оказывается дробным. Например, при номер медианного элемента окажется . В этом случае берут значения 4-го и 5-го элементов и вычисляют их среднее. Т.е. медиана в случае нечётного размера выборки определяется как среднее двух срединных значений ряда её ранжированных элементов. Легко увидеть, что номер первого усредняемого значения при чётном будет , а второго .

В анализе данных медиана может использоваться как альтернатива среднего значения, устойчивая к выбросам и аномальным значениям. Действительно, из-за ранжирования аномально большие и аномально низкие значения всегда будут оказываться в начале или конце ряда и никогда не станут медианными.

Медиана является порядковой статистикой распределения и может быть выражена через другие порядковые статистики (т.е. получаемые при ранжировании). Она является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.

В Loginom существует специализированный обработчик группировка, который позволяет объединять записи избранных полей в группы, а для оставшихся полей вычислять статистические показатели (медиану, сумму, среднее, минимум и т.д.). А также визуализаторы статистика и качество данных, в перечень показателей которых включена медиана.