Вход
Регистрация
Сделан недопустимый выбор. Пожалуйста, обратитесь к администратору сайта.

Статьи

Различные стратегии сэмплинга в условиях несбалансированности классов

В статье рассматриваются стратегии сэмплинга, которые могут быть применены в случае, когда в наборе данных классы не сбалансированы. Рассмотрены такие подходы, как случайное удаление примеров мажоритарного класса, связи Томека (Tomek links), SMOTE, ASMO и другие.

Web Mining — анализ использования веб-ресурсов. Построение моделей

В статье рассмотрены дальнейшие действия анализа использования веб-ресурсов после предобработки веб-данных. На примере показано как можно в этой области использовать статистическую информацию, применить алгоритмы Data Mining: k-means, CLOPE, Apriori.

Использование самоорганизующихся карт в задачах кластеризации

Использование нейросетей, в частности, самоорганизующихся карт при добычи информации из больших объемов данных. Описаны подходы, позволяющие находить закономерности, основываясь на поиске схожих (близких) объектов.

Очистка персональных данных, часть 2

В статье описаны методы очистки персональных данных, основанные на статистических понятиях. В них приводятся определения и расчеты основных статистических показателей, с помощью которых можно выявлять возможные ошибки, а также вычислять наиболее вероятные значения для их замены.

Web Mining: анализ использования веб-ресурсов, обработка веб-лога

Статья посвящена анализу использование веб-ресурсов. В этой части рассказано о том, как устроен веб-лог: какие поля он включает, и чем они могут быть полезны. Также в ней рассматривается предобработка веб-данных, описание которой сопровождено примером.

Нечеткие деревья решений

Статья посвящена нечетким деревьям решений (fuzzy decision trees). Описаны основные идеи: правила нахождения энтропии и прироста информации в нечетком случае. Работа алгоритма пояснена на примере.

Алгоритм ближайшего соседа

Cтатья посвящена алгоритму KNN, который широко используется в Data Mining для решения задач классификации, так как он прост для программной реализации, а полученный результат легко поддается интерпретации. Рассмотрены базовые идеи, области применения алгоритма, приведены примеры

Применение Data Mining для повышения лояльности клиентов

Практически все компании пытаются внедрять программы повышения лояльности. Однако, трудоемкость запуска и функционирования таких программ такова, что применение методов моделирования – единственный способ поставить процесс на поток и запустить механизм систематического повышения лояльности. Достижение результата реально возможно только при использовании методов интеллектуального анализа данных - Data Mining. В статье будет рассмотрен пример одного из наиболее популярных подходов к повышению лояльности – Direct Marketing.

Очистка персональных данных, часть 1

Большинство компаний собирают персональную информацию о своих клиентах с целью ее дальнейшего анализа и выявления скрытых закономерностей. Полученная база данных содержит ошибки (опечатки, пропуски, некорректные значения...), которые мешают дальнейшей её обработке. Существует ряд методов, позволяющих обнаружить и очистить "загрязненные" данные. В статье рассматриваются наиболее простые из них.

Social Mining: персонификация предложений в социальных сетях

В социальных сетях данных столько, что пользователи не в силах разобраться в ней и находить то, что им нужно. Для решения этой проблемы требуется разработка механизмов "умного" поиска и персонифицированного представления информации. Идеальным способом решения подобных задач является применение методов Data Mining в сочетании с алгоритмами очистки, предобработки и обогащения данных (Web Social Mining).

Страницы