Байесовский классификатор (Bayesian classifier)

Синонимы: Простой байесовский классификатор, Байесовская классификация, Наивный байесовский классификатор, Naive Bayes

Разделы: Алгоритмы

В машинном обучении — семейство простых вероятностных классификаторов, основанных на использовании теоремы Байеса и «наивном» предположении о независимости признаков классифицируемых объектов.

Анализ на основе байесовской классификации активно изучался и использовался начиная с 1950-х годов в области классификации документов, где в качестве признаков использовались частоты слов. Алгоритм является масштабируемым по числу признаков, а по точности сопоставим с другими популярными методами, такими как машины опорных векторов.

Как и любой классификатор, байесовский присваивает метки классов наблюдениям, представленным векторами признаков. При этом предполагается, что каждый признак независимо влияет на вероятность принадлежности наблюдения к классу. Например, объект можно считать яблоком, если он имеет округлую форму, красный цвет и диаметр около 10 см. Наивный байесовский классификатор «считает», что каждый из этих признаков независимо влияет на вероятность того, что этот объект является яблоком, независимо от любых возможных корреляций между характеристиками цвета, формы и размера.

Простой байесовский классификатор строится на основе обучения с учителем. Несмотря на малореалистичное предположение о независимости признаков, простые байесовские классификаторы хорошо зарекомендовали себя при решении многих практических задач. Дополнительным преимуществом метода является небольшое число примеров, необходимых для обучения.

По сути, байесовский классификатор представляет собой вероятностную модель. Пусть задано множество наблюдений, каждое из которых представлено вектором признаков $x = (x_{1}, x_{2}, . . ., x_{n})$ . Модель присваивает каждому наблюдению условную вероятность $p (C_{k} | x_{1}, x_{2}, . . ., x_{n})$ , $C_{k}$ — класс.

Используя теорему Байеса, можно записать:

$p (C_{k} | x) = \frac{p (C_{k}) p (x | C_{k})}{p (x)}$

В этой формуле интерес с точки зрения классификации представляет только числитель, поскольку знаменатель от метки классов не зависит и является константой. При условии, что признаки независимы, можно показать, что

$p (C_{k} | x_{1}, x_{2}, . . ., x_{n}) = p (C_{k}) p (x_{1} | C_{k}) p (x_{2} | C_{k}) . . . p (x_{n} | C_{k}) = \prod_{n} p (x_{i} | C_{k})$ .

Тогда простой байесовский классификатор можно рассматривать как функцию, которая каждому выходному значению модели присваивает метку класса, т.е. $y = C_{k}$ следующим образом:

$y = {arg}_{k} {max}_{1... k} \prod_{n} p (x_{i} | C_{k})$

Таким образом, выбирается класс $C_{k}$ , который максимизирует функцию правдоподобия, представляющую собой произведение условных вероятностей значений признака $x_{i}$ по каждому классу $C_{k}$ .

Вероятностный классификатор предсказывает класс с самой большой условной вероятностью для заданного вектора признаков $x$ .