Вход
Регистрация

Social Mining: персонификация предложений в социальных сетях

Задача

За последние годы популярность социальных сетей в России неуклонно растет, а также увеличивается и их количество. Наиболее крупные из них, такие как LiveJournal, MySpace, ВКонтакте, Одноклассники и т.д., насчитывают миллионы зарегистрированных пользователей и гостей (незарегистрированные пользователи), которые каждый день генерируют огромные потоки информации в виде публикации различных заметок, аудио-, фото- и видеофайлов, ведения обсуждений в различных сообществах и форумах и т.д.

Уже сейчас информации в социальных сетях столько, что пользователи не в силах разобраться в ней и быстро находить то, что им нужно.

Для решения этой проблемы требуется разработка механизмов "умного" поиска и персонифицированного представления информационных ресурсов сети.

Решение

Один из алгоритмов реализации эффективных механизмов персонифицированного представления информации пользователям, базирующихся на применении Data Mining средств, включает в себя следующие этапы:

  • Сбор и обогащение информации о пользователях социальной сети.
  • Сегментация пользователей.
  • Интерпретация и описание сегментов.
  • Сегментация гостевых пользователей на базе построенной модели.
  • Персонифицированное предоставление информации сегментам пользователей.
Рисунок 1 – Общая схема работы алгоритма подбора персонифицированной информации

Сбор и обогащение данных

Изначально о пользователях сети известны лишь анкетные данные, которые зачастую заполняются не полностью, информация, хранящаяся в cookies, и связи пользователей. Их, как правило, не достаточно для формирования точного портрета пользователей и гостей социальной сети, и зачастую достоверность заполненных анкет невысокая. Следовательно, имеющуюся информацию просто необходимо обогащать новыми сведениями, добывая их с помощью методов анализа.

Обогащение информации о пользователях

При обогащении имеющейся информации о пользователях сети могут применяться следующие подходы:

  • Анализ связей пользователя.
  • Анализ истории поведения пользователя.

Анализ связей пользователя

Анализ связей позволяет пополнить недостающие анкетные данные пользователя, такие как:

  • пол;
  • возраст;
  • социальное положение;
  • личные и профессиональные интересы;
  • образование;
  • профессия;
  • род деятельности и т.д.

Суть данного подхода сводится к выделению наиболее весомых связей рассматриваемого пользователя с другими субъектами социальной сети. Вес связи между субъектами сети может рассчитываться на основе интенсивности информационного потока между ними с учетом дополнительных параметров, увеличивающих вероятность схожести пользователей. Также определять схожесть пользователей можно по количеству общих друзей.

После того как такие связи и субъекты выявлены, недостающие данные о пользователе могут быть заполнены анкетной информацией о найденных субъектах.

Рисунок 2 – Обогащение анкетных данных, используя информацию о связных объектах

Анализ поведения в сети

Следующий шаг – обогащение данных пользователя исходя из анализа его поведения в социальной сети.

Под поведением понимается обращение пользователя к различным ресурсам и объектам социальной сети, таким как:

  • сообщества;
  • блоги других пользователей;
  • статьи;
  • обсуждения;
  • видео- и аудиоматериалы и т.д.

Анализ истории поведения пользователя в сети позволяет выявить наиболее посещаемые ресурсы, время их посещения, интересующие тематики контента и т.д. Вся эта информация дает возможность значительно уточнить портрет пользователя сети и восстановить недостающие данные о нем.

Аналогичный способ обогащения данных актуален и для незарегистрированных пользователей, если у них имеются cookies и журналы посещений.

Рисунок 3 – Обогащение данных из истории активности пользователя

Обогащение информации о гостевых пользователях

Для того чтобы обеспечить персонифицированное представление информации гостевым пользователям, необходимо максимально собрать и обогатить сведения о них.

По такой категории пользователей нет анкетных данных и достоверно не известны их предпочтения, интересы, круг общения и т.д., однако опосредованно можно извлечь эту информацию путем анализа cookies и лог-файлов серверов.

Для анализа первоначально доступны следующие данные:

  • Название и версия операционной системы.
  • Название и версия браузера.
  • IP-адрес (откуда можно получить физический адрес, информацию о провайдере и т.д.).
  • Узел.
  • Содержимое ресурса.
  • Количество посещений ресурса.
  • Путь и т.д.

Анализ содержимого cookies и логов позволит с определенной вероятностью определить интересы пользователя, регион проживания, время посещения ресурсов и прочее, что в свою очередь поможет сформировать примерный портрет пользователя.

Важно понимать, что информация о пользователях и гостях сети, полученная в результате обогащения, носит вероятностный характер.

Рисунок 4 – Получение информации о гостях сети

Сегментация пользователей сети

Сегментация сети при решении задачи персонификации предоставления информации, продуктов и услуг является одним из ключевых этапов.

Поскольку сформировать индивидуальные предложения для каждого пользователя сети невозможно, необходимо провести их кластеризацию, т.е. разбиение на группы со схожим поведением.

Кластеризация является основой для предоставления более "персонифицированных" продуктов и услуг и позволяет, с одной стороны, учесть особенности поведения различных групп пользователей, с другой – сделать экономически целесообразным специальные предложения или условия для них.

В качестве параметров кластеризации пользователей должны использоваться анкетные данные и дополнительная информация, полученная после процедуры обогащения:

  • Пол.
  • Возраст.
  • Образование.
  • Вид деятельности.
  • Должность.
  • Место жительства.
  • Интересы (исполнители, фильмы, увлечения, в каких сообществах состоит и т.д.).
  • Время посещения ресурсов сети.
  • Продолжительность сессии.
  • Частота посещения ресурсов сети и прочее.

Для решения задачи сегментации могут применяться, например, следующие методы:

  • Карты Кохонена;
  • Алгоритмы k-means, g-means.

После того как все пользователи сети будут разнесены в несколько крупных кластеров, встает задача интерпретации результатов кластеризации, т.е. определение значений ключевых параметров пользователей, вошедших в кластер. Таким образом, формируется типичный портрет пользователей в каждом сегменте.

Следует отметить, что рассматриваемое решение предполагает построение и обучение модели сегментации на основе информации только по зарегистрированным пользователям.

Качество полученных сегментов тогда будет выше в виду того, что информация по такой категории пользователей является более достоверной, чем те данные, которые дополнены по гостям в результате процедуры обогащения.

На следующем этапе осуществляется "прогон" неавторизованных пользователей сети через уже готовый блок сегментации.

Данный подход позволяет всех участников сети (как зарегистрированных, так и гостей) отнести однозначно к тому или иному сегменту, имеющему экспертную интерпретацию и описание, которое в дальнейшем поможет формировать персонифицированные рекламные и прочие информационные продукты и предложения.

Механизм предоставления персонифицированной информации

Результатом в сегментации будут описание полученных групп и информация об их составах. Такое описание дает возможность понять, что в первую очередь интересно и какие сведения необходимо предоставлять членам группы, а значит, становится возможным более адресная и персонифицированная рассылка материалов, соответствующих интересам пользователей.

Рисунок 5 – Механизм предоставления персонифицированных предложений

Заключение

Применение подобных сервисов сделает социальную сеть более эффективной и привлекательной для конечного пользователя. Гораздо легче будет найти среди тысяч статей и обсуждений именно то, что нужно, не тратя время на просмотр ненужной информации. Это в свою очередь повысит лояльность пользователей, а значит и ценность сети в целом. Такие механизмы неизменно будут увеличивать эффективность различных рекламных акций и рассылок внутри социальной сети.

Персонифицированное обращение к пользователям сети, выделение их реальных потребностей, кастомизация контента и сервисов являются одними из основных составляющих в процессе привлечения и удержания пользователей.

Формирование лояльности и эффективное управление взаимоотношениями с пользователями невозможны без знаний и учета их профиля, интересов и потребностей, а получение таких знаний требует сбор и глубокий анализ информации о пользователях.

В настоящее время большинство социальных сетей не применяют механизмов адресной рассылки и предоставления информации, тем самым значительно усложняя жизнь для своих пользователей, что может стать причиной снижения их лояльности и увеличения оттока в другие сети.

Рассылка материалы о Loginom