Кафедра «Информатики и программного обеспечения» Брянского государственного технического университета приняла участие в проекте по мониторингу наркоситуации в Брянской области, который проводится ежегодно по заказу УФСКН РФ по Брянской области кафедрой социально-гуманитарных дисциплин Брянского филиала Российской академии народного хозяйства и государственной службы. Целью проекта является анализ и оценка состояния наркоситуации в Брянской области.
Основным методом сбора данных является социологический опрос населения, в том числе пациентов наркологических клиник. Социологический опрос проводился в 2013-2016 гг. Структура анкеты в течении периода незначительно менялась. Общее число вопросов – от 37 до 42, в разных шкалах. Анкета содержит следующие типы вопросов: данные о респонденте (пол, возраст, образование); жизненные ориентиры респондента (наиболее острые проблемы, жизненные ценности, проведение свободного времени); вопросы, касающиеся здоровья респондента (оценка здоровья, наличие вредных привычек); отношение респондента к наркотикам и наркомании.
При проведении опроса социологи столкнулись с рядом проблем. Одна из них – это социально приемлемые ответы респондентов (особенно подростков). То есть, если проводится опрос школьников или студентов, то многие респонденты отвечают также как их сосед по парте. Другая проблема – это ложные ответы на вопросы, касающиеся наркотиков и проблемы наркомании. Таким способом респонденты пытаются скрыть истинную информацию о себе.
Ранее обработка социологических данных проводилась исключительно статистическими методами. Цель творческого коллектива кафедры «ИиПО» БГТУ, как соисполнителей проекта, состояла в повышении эффективности обработки данных за счет применения методов интеллектуального анализа, поскольку эти методы могут позволить выявить гипотезы о взаимосвязях в данных в автоматическом режиме.
Аналитик, который сталкивается с задачей интеллектуальной обработки социологических данных, встает перед вопросом, какой из методов интеллектуального анализа лучше всего использовать, поскольку ни один из них не является идеальным, или, другими словами, универсальным. Поэтому возникает вопрос выбора модели анализа социологических данных и нужно искать компромисс между точностью, простотой и интерпретируемостью каждой отдельной модели анализа. Следует отметить, что для аналитика, в первую очередь, важна точность результатов, поскольку именно это качество модели делает ее полезной. Поэтому возникает проблема – повышение точности и достоверности модели анализа, желательно без изменения ее сути. Одним из способов является использование ансамблей моделей – комбинации нескольких методов интеллектуального анализа для решения одной и той же задачи обработки социологических данных.
Данные были представлены в бинарном виде и подавались на вход ансамбля моделей в виде таблицы, представленной на рисунке 1.
По строкам в этой таблице идут ответы на вопросы из реальных анкет. Фрагменты анкет представлены на рисунках 2 и 3. Например, можно видеть, что в первой анкете на первый вопрос выбраны следующие ответы: 1, 2, 4, 5, 7. На второй вопрос выбраны ответы: 1, 2.
Поскольку к такой структуре сложно подобрать нужный метод анализа, данные необходимо преобразовать к виду транзакций, где под каждой транзакцией будет пониматься одна анкета с выбранными вариантами ответов, как показано на рисунке 4.
Для кластеризации транзакционных данных хорошо подходит алгоритм CLOPE. Результат разбиения по кластерам этим методом показан на рисунке 5.
Необходимо выяснить, по каким именно признакам анкеты попали в тот или иной кластер. Для этого к полученным на первой шаге результатам применяется метод «Деревья решений». Они также позволили вычислить значимость этих атрибутов. Результат применения Деревьев решений показан на рисунке 6, на котором следствием полученных правил как раз и является номер кластера, полученного на первом шаге анализа. Теперь аналитик может выяснить, какие именно признаки относят респондентов в тот или иной кластер.
Данные о респондентах, такие как пол, возраст, материальное и социальное положение, подавались на вход кластеризации картами Кохонена, а затем обрабатывались деревьями решений. Все полученные результаты учитывались на этапе интерпретации.
Руководитель проекта
Лагерев Дмитрий
к.т.н., доцент