Вход
Регистрация

Предобработка веб-данных

Preprocessing for web usage mining

Область применения

Предобработка веб-данных используется при анализе использования веб-ресурсов.

Описание

Для чего необходима предобработка веб-данных?

  • Очистка данных. Набор данных из веб-лога необходимо отфильтровать от записей, генерируемых автоматически совместно с загрузкой страницы
  • Удаление записей, не отражающих активность пользователя. Веб-боты в автоматическом режиме просматривают множество различных страниц в сети. Их поведение сильно отличается от человеческого, и они не представляют интереса с точки зрения анализа использования веб-ресурсов
  • Определение каждого отдельного пользователя. Большинство порталов в сети Интернет доступны анонимным пользователям, поэтому среди них необходимо выделить отдельных посетителей
  • Идентификация пользовательской сессии. Это означает, что для каждого визита определяются страницы, которые был запрошены и их порядок просмотра. Также пытаются оценить, когда пользователь покинул веб-сайт

Алгоритм

Предобработка веб-данных включает следующие шаги

  1. Очистка от лишних записей, автоматически генерируемых совместно с загрузкой страницы.
  2. Удаление записей, не отражающих активность пользователя.
  3. Определение каждого отдельного пользователя.
  4. Идентификация пользовательской сессии.

Предобработка веб-данных подробно рассмотрена в статье "Анализ использования веб-ресурсов, часть 1"

Требования к данным

Лог-файл формата ECLF

Сценарий

Смотрите также:
Рассылка материалы о Loginom