Кафедра «Информатики и программного обеспечения» Брянского государственного технического университета приняла участие в проекте по мониторингу наркоситуации в Брянской области, который проводится ежегодно по заказу УФСКН РФ по Брянской области кафедрой социально-гуманитарных дисциплин Брянского филиала Российской академии народного хозяйства и государственной службы. Целью проекта является анализ и оценка состояния наркоситуации в Брянской области.
С описанием задачи и информацией об исходных данных можно познакомиться в первой части статьи.
Для построения полноценного ансамбля моделей необходимо выполнить следующие три этапа:
Выполнение трех предложенных этапов в формировании ансамбля моделей позволит повысить точность анализа социологических данных и качество этого анализа. Графически схема построения ансамбля моделей показана на рисунке 1.
Итоги анализа представлены на рисунках 2, 3, 4.
В исходной выборке содержалось 4043 анкеты за 2013-2014 годы. После этапа очистки и предобработки данных 3 анкеты ушли. Далее применялся сэмплинг (методом отбора со смещением) для формирования обучающей выборки для скоринговой модели. В нее попало 1002 анкеты по 501 анкете каждого класса (группа риска, не группа риска). Кластеризация проводилась ранее методом CLOPE.
Далее этап определения конечных классов (производилось только квантование возраста). Далее в сценарий включалась логистическая регрессия. И последний этап – классификация анкет на основе скоринговой модели, структура показана на рисунке 5.
Было построено четыре скоринговые модели, которые отличались методом отбора переменных. Для каждой модели были построены ROC-кривые, CAP-кривые и диаграммы, отражающие шансы события/не-события (рисунки 6, 7 и 8). Выбрана скоринговая модель с лучшими показателями (метод отбора переменных – прямой отбор). Эта скоринговая модель используется в сценарии Deductor Enterprise в качестве рабочей модели.
Руководитель проекта
Лагерев Дмитрий
к.т.н., доцент