Обработчик Квантование позволяет разбить диапазон числового признака на заданное количество интервалов и присвоить номера интервалов или иные метки попавшим в них значениям.
Квантование может использоваться для сокращения размерности данных, а именно для уменьшения числа разнообразных значений признака.
Например, если с точки зрения анализа нет разницы между суммами кредита 15 и 17 тыс., то нет смысла рассматривать эти величины отдельно. В этом случае лучший результат даст квантование: оно позволяет представлять информацию в более компактном и удобном для анализа виде.
Различают два основных метода квантования:
При интервальном квантовании диапазон изменения значения признака разделяется на равные интервалы. Данный метод используется, если значения равномерно распределены по всему диапазону их изменения, т.е. в результате квантования не будет интервалов, в которых значения почти отсутствуют или заполнены очень плотно.
При квантильном методе ширина интервалов может быть различной. Ее выбирают таким образом, чтобы в каждый из них попало примерно одинаковое количество значений.
Допустим, у нас есть таблица с информацией о кредиторах и с суммой взятых кредитов. Необходимо узнать активность разных возрастных групп кредиторов.
N п/п | Возраст | Сумма |
---|---|---|
1 | 37 | 7000 |
2 | 38 | 7500 |
3 | 60 | 14500 |
4 | 28 | 15000 |
5 | 59 | 32000 |
6 | 25 | 11500 |
7 | 57 | 5000 |
8 | 45 | 61500 |
… | … | … |
Произведем квантование интервальным алгоритмом. Статистика показывает, что возраст кредиторов лежит в диапазоне от 19 до 70 лет. Разобьем возраст на 5 равных интервалов, заменив возраст номером интервала
Номер интервала | Нижняя граница | Верхняя граница |
---|---|---|
1 | 19 | 29,2 |
2 | 29,2 | 39,4 |
3 | 39,4 | 49,6 |
4 | 49,6 | 59,8 |
5 | 59,8 | 70 |
Получим таблицу.
N п/п | Номер интервала | Сумма |
---|---|---|
1 | 2 | 7000 |
2 | 2 | 7500 |
3 | 5 | 14500 |
4 | 1 | 15000 |
5 | 4 | 32000 |
6 | 1 | 11500 |
7 | 4 | 5000 |
8 | 3 | 61500 |
… | … | … |
Сгруппировав полученные данные, можно оценить количество кредиторов в каждой возрастной группе и сумму взятых кредитов по этим группам. На основе такой информации можно делать выводы о необходимости, например, стимулирования малоактивных возрастных групп либо изменении рекламной политики с учетом наиболее активной возрастной категории.