Preprocessing for web usage mining
Область применения
Предобработка веб-данных используется при анализе использования веб-ресурсов.
Описание
Для чего необходима предобработка веб-данных?
- Очистка данных. Набор данных из веб-лога необходимо отфильтровать от записей, генерируемых автоматически совместно с загрузкой страницы
- Удаление записей, не отражающих активность пользователя. Веб-боты в автоматическом режиме просматривают множество различных страниц в сети. Их поведение сильно отличается от человеческого, и они не представляют интереса с точки зрения анализа использования веб-ресурсов
- Определение каждого отдельного пользователя. Большинство порталов в сети Интернет доступны анонимным пользователям, поэтому среди них необходимо выделить отдельных посетителей
- Идентификация пользовательской сессии. Это означает, что для каждого визита определяются страницы, которые был запрошены и их порядок просмотра. Также пытаются оценить, когда пользователь покинул веб-сайт
Алгоритм
Предобработка веб-данных включает следующие шаги
- Очистка от лишних записей, автоматически генерируемых совместно с загрузкой страницы.
- Удаление записей, не отражающих активность пользователя.
- Определение каждого отдельного пользователя.
- Идентификация пользовательской сессии.
Предобработка веб-данных подробно рассмотрена в статье "Анализ использования веб-ресурсов, часть 1"
Требования к данным
Лог-файл формата ECLF
Сценарий