В статье рассматриваются стратегии сэмплинга, которые могут быть применены в случае, когда в наборе данных классы не сбалансированы. Рассмотрены такие подходы, как случайное удаление примеров мажоритарного класса, связи Томека (Tomek links), SMOTE, ASMO и другие.
В статье рассмотрены дальнейшие действия анализа использования веб-ресурсов после предобработки веб-данных. На примере показано как можно в этой области использовать статистическую информацию, применить алгоритмы Data Mining: k-means, CLOPE, Apriori.
Использование нейросетей, в частности, самоорганизующихся карт при добычи информации из больших объемов данных. Описаны подходы, позволяющие находить закономерности, основываясь на поиске схожих (близких) объектов.
В статье описаны методы очистки персональных данных, основанные на статистических понятиях. В них приводятся определения и расчеты основных статистических показателей, с помощью которых можно выявлять возможные ошибки, а также вычислять наиболее вероятные значения для их замены.
Статья посвящена анализу использование веб-ресурсов. В этой части рассказано о том, как устроен веб-лог: какие поля он включает, и чем они могут быть полезны. Также в ней рассматривается предобработка веб-данных, описание которой сопровождено примером.
Статья посвящена нечетким деревьям решений (fuzzy decision trees). Описаны основные идеи: правила нахождения энтропии и прироста информации в нечетком случае. Работа алгоритма пояснена на примере.
Cтатья посвящена алгоритму KNN, который широко используется в Data Mining для решения задач классификации, так как он прост для программной реализации, а полученный результат легко поддается интерпретации. Рассмотрены базовые идеи, области применения алгоритма, приведены примеры
Практически все компании пытаются внедрять программы повышения лояльности. Однако, трудоемкость запуска и функционирования таких программ такова, что применение методов моделирования – единственный способ поставить процесс на поток и запустить механизм систематического повышения лояльности. Достижение результата реально возможно только при использовании методов интеллектуального анализа данных - Data Mining. В статье будет рассмотрен пример одного из наиболее популярных подходов к повышению лояльности – Direct Marketing.
Большинство компаний собирают персональную информацию о своих клиентах с целью ее дальнейшего анализа и выявления скрытых закономерностей. Полученная база данных содержит ошибки (опечатки, пропуски, некорректные значения...), которые мешают дальнейшей её обработке. Существует ряд методов, позволяющих обнаружить и очистить "загрязненные" данные. В статье рассматриваются наиболее простые из них.
В социальных сетях данных столько, что пользователи не в силах разобраться в ней и находить то, что им нужно. Для решения этой проблемы требуется разработка механизмов "умного" поиска и персонифицированного представления информации. Идеальным способом решения подобных задач является применение методов Data Mining в сочетании с алгоритмами очистки, предобработки и обогащения данных (Web Social Mining).