Вход
Регистрация

Факторный анализ

Назначение

Нередко, в наборе данных объекты описываются огромным числом признаков. Однако здесь могут возникнуть следующие проблемы:

  • наличие слабоинформативных и неинформативных признаков;
  • мультиколлинеарность.

Анализировать большое число признаков на наличие указанных проблем крайне затруднительно. В данном случае уместнее применить метод главных компонент, который реализован в обработчике факторный анализ. В результате будет получено новое пространство признаков меньшей размерности, избавленных от указанных выше недостатков.

Примеры применения

Сегментация клиентской базы. Для каждого клиента известно сколько покупок в той или иной группе товаров он сделал. Каждая группа – это отдельный признак. Таким образом, получаются сотни факторов. Для повышения качества кластеризации необходимо сократить размерность признакового пространства, для чего используется метод главных компонент, реализованный в обработчике «Факторный анализ».

Прогнозирование распространения инфекционного заболевания. В качестве исторических данных нередко используются исторические сведения о погоде (температура воздуха, влажность). Данная информация позволяет учесть факторы, благоприятно влияющие на размножение переносчиков заболевания. Поэтому каждый объект в выборке описывается десятками признаков. Так как изменения погодных условий, как правило, происходит постепенно, это приводит к наличию мультиколлинеарности в указанных данных. Для решения указанной проблемы в данной задаче может быть использован метод главных компонент.

Описание алгоритма

В Deductor факторный анализ базируется на методе главных компонент.

Алгоритм основан на преобразовании исходной матрицы и расчете собственных чисел. Геометрический смысл преобразований заключается в следующем. Координатные оси в исходном пространстве признаков подвергаются повороту. В результате чего каждая ось образует новый фактор. На основе матрицы, полученной из исходного набора данных, для каждого фактора рассчитывается значимость в новом пространстве признаков. Сокращение размерности заключается в том, что будут оставлены только новые факторы с высокой значимостью.

На практике аналитикам чаще всего интересен факторный анализ с ортогональным вращением осей, когда при повороте осей координат угол между факторами остается прямым. Обработчик Факторный анализ реализует два метода вращения: варимакс и квартимакс.

  • Варимакс – наиболее часто используемый на практике метод, цель которого – минимизировать количество переменных, имеющих высокие нагрузки на данных фактор, что способствует упрощению описания фактора за счет группировки вокруг него только тех переменных, которые с ним связаны в большей степени, чем с остальными.
  • Квартимакс противоположен варимаксу, поскольку минимизирует количество факторов, необходимых для объяснения данной переменной. Квартимакс-вращение приводит к выделению одного из общих факторов с достаточно высокими нагрузками на большинство переменных.