Вход
Регистрация

Корреляционный анализ

Назначение

Корреляционный анализ применяется для оценки степени линейной зависимости между парами факторов, производится с целью отбора и предобработки входных полей для использования в обучаемых на данных моделях. Например, наличие корреляции между входными факторами крайне отрицательно сказывается при построении линейной регрессии.

В настройках обработчика указывается входные и выходные поля. В результате получается таблица с коэффициентами корреляции для каждой возможной пары из комбинации входного и выходного факторов. Коэффициент корреляции принимает значения от -1 до 1.

Модуль коэффициента свидетельствует о степени зависимости: чем ближе его значение к 0, тем слабее линейная зависимость. Чем ближе коэффициент корреляции от 0 к 1, тем сильнее прямая линейная зависимость, чем ближе от 0 к -1, тем сильнее обратная линейная зависимость. На практике считается, что если модуль коэффициента корреляции больше 0,6, то линейная зависимость сильная, а если менее 0,3, то почти отсутствует.

Стоит заметить, что низкая степень корреляции между входным и прогнозируемым полями не означает отсутствие других, нелинейных зависимостей. Кроме того, при построении линейных моделей стоит рассмотреть такой входной фактор внимательнее, так как он может быть использован для проектирования признаков (Feature Engineering).

Пример

Пусть необходимо быстро определить товары-заменители и сопутствующие товары, имея временные ряды объемов продаж (см. таблицу).

У товаров-заменителей должна быть большая отрицательная корреляция, т.к. увеличение продаж одного товара ведет к спаду продаж второго. У сопутствующих товаров – большая положительная корреляция.

Товар 1 10 12 14 13 14 14 12 10 16 13 17
Товар 2 20 22 25 24 25 25 21 18 24 21 25
Товар 3 15 12 9 10 9 9 12 14 9 9 7
Товар 4 25 26 26 25 24 23 24 23 22 23 25

Определим корреляцию Товар 1 с остальными товарами.

Как видно из рисунка, ряд продаж для Товар 2 имеет очень большую положительную, а Товар 3 – отрицательную корреляцию. Из этого можно сделать вывод, что Товар 2, возможно, является сопутствующим товаром, а Товар 3 – заместителем Товара 1.

Корреляция продаж Товара 4 с Товаром 1 является отрицательной, но при этом абсолютное значение корреляции невелико, поэтому говорить о наличии взаимосвязи между продажами Товара 1 и Товара 4 без проведения дополнительного анализа нельзя.

Рассылка материалы о Loginom