Вход
Регистрация

EM кластеризация

EM (Expectation-maximization) – популярный алгоритм кластеризации, позволяющий эффективно работать с большими объемами данных.

В основе идеи EM-алгоритма лежит предположение, что любое наблюдение принадлежит ко всем кластерам, но с разной вероятностью. Поэтому на выходе формируются два дополнительных столбца: Номер кластера и Вероятность принадлежности . Объект должен быть отнесен к тому кластеру, для которого данная вероятность выше.

Примеры применения

Область применения EM-алгоритма чрезвычайно широка: дискриминантный анализ, кластеризация, восстановление пропусков в данных...

Описание алгоритма

EM-алгоритм основан на предположении, что кластеризуемые данные подчиняются линейной комбинации (смеси) нормальных (гауссовых) распределений.

Название алгоритма происходит от слов "expectation-maximization", что переводится как "ожидание-максимизация". Его целью является определение и оценка параметров распределения – математическое ожидание и дисперсию, которые максимизируют функцию правдоподобия, используемую как меру качества модели.

Среди преимуществ EM-алгоритма можно выделить следующие:

  • Эффективная обработка больших объемов данных (Big Data);
  • Устойчивость к шумам и пропускам в данных;
  • Возможность построения желаемого числа кластеров;
  • Быстрая сходимость при удачной инициализации.

Математический аппарат и реализация данного алгоритма подробно рассмотрены в статье «EМ - масштабируемый алгоритм кластеризации».

Рассылка материалы о Loginom