EM (Expectation-maximization) – популярный алгоритм кластеризации, позволяющий эффективно работать с большими объемами данных.
В основе идеи EM-алгоритма лежит предположение, что любое наблюдение принадлежит ко всем кластерам, но с разной вероятностью. Поэтому на выходе формируются два дополнительных столбца: Номер кластера и Вероятность принадлежности . Объект должен быть отнесен к тому кластеру, для которого данная вероятность выше.
Область применения EM-алгоритма чрезвычайно широка: дискриминантный анализ, кластеризация, восстановление пропусков в данных...
EM-алгоритм основан на предположении, что кластеризуемые данные подчиняются линейной комбинации (смеси) нормальных (гауссовых) распределений.
Название алгоритма происходит от слов "expectation-maximization", что переводится как "ожидание-максимизация". Его целью является определение и оценка параметров распределения – математическое ожидание и дисперсию, которые максимизируют функцию правдоподобия, используемую как меру качества модели.
Среди преимуществ EM-алгоритма можно выделить следующие:
Математический аппарат и реализация данного алгоритма подробно рассмотрены в статье «EМ - масштабируемый алгоритм кластеризации».