Вход
Регистрация

Войти c помощью аккаунта

Статьи

Social Mining: анализ информационных потоков в социальных сетях

Социальные сети – сложные структуры, состоящие из множества узлов объединенных связями, анализ связей позволяет делать полезные и не очевидные выводы. В статье рассматриваются математические методы анализа информационных потоков в социальных сетях (Social Network Mining). Рассмотрен вопрос поиска наиболее "могущественного" узла, анализ связей групп в социальной сети и выводы, которые можно получить в результате проведенного анализа.

EМ — масштабируемый алгоритм кластеризации

Кластеризация является одной из наиболее важных задач Data Mining. В настоящее время разработано большое количество методов и алгоритмов кластеризации, но, к сожалению, не все они могут эффективно работать с большими массивами данных, поэтому дальнейшие исследования в этом направлении связаны с преодолением этой проблемы.

Web Mining: основные понятия

Рассмотрены основные понятия и элементарные принципы функционирования сети Интернет, которые необходимо знать, занимаясь анализом веб-данных. В статье дается общее представление о Web Mining: определение, этапы, категории.

Поиск последовательных шаблонов. Часть 2.

Во второй части статьи подробно рассматриваются алгоритмы нахождения последовательных шаблонов - AprioriAll, AprioriSome, DynamicSome.

Поиск последовательных шаблонов. Часть 1.

Ассоциативные правила широко применяются в Data Mining для решения задачи анализа рыночной корзины и других. Однако ассоциативные правила имеют ряд ограничений, которые не позволяют с их помощью охватывать некоторые аспекты анализа, представляющие большой практический интерес: не учитывают последовательность появления товаров и временную динамику продаж, а также не связывают наборы предметов в транзакции с определенным клиентом. Эти недостатки позволяют преодолеть последовательные шаблоны. В первой части статьи делается постановка задачи поиска последовательных шаблонов.

Анализ больших объемов данных

Анализ огромных баз данных – это нетривиальная задача, которая в большинстве случаев не решается "в лоб", однако современные базы данных и аналитические платформы предлагают множество методов решения этой задачи. При разумном их применении системы способны перерабатывать терабайты данных с приемлемой скоростью.

Ядро OLAP системы. Часть 3 — построение срезов куба

Описаны детали реализации библиотеки компонентов CubeBase. В частности, рассмотрены вопросы постоения срезов гиперкуба и отображения информации в виде сводной (кросс) таблицы.

Подготовка исходных данных для анализа

Никакой самый изощренный метод сам по себе не даст хороший результат в задачах Data Mining, поэтому критически важной становится проблема не используемых алгоритмов, а качества исходных данных. Чаще всего именно качество данных является причиной неудачи. В статье описана методика, следуя которой, можно подготовить качественные данные в нужном объеме для анализа.

WavUtils — библиотека инструментов вейвлет-преобразования

Описание модуля WavUtils. В качестве инструмента вейвлет-преобразования были выбраны вейвлеты Добеши - как наиболее хорошо изученные и удобные в вычислительном плане. Использование вейвлетов до 10 порядка включительно представляется достаточным для решения подавляющего большинства прикладных задач, связанных с цифровой обработкой сигналов.

Выявление обобщенных ассоциативных правил

Методы поиска обобщенных правил при вычислении используют информацию о группировке элементов (таксономию), что позволяет значительно расширить круг задач, решаемых алгоритмами поиска ассоциативных правил. Примером обобщенного ассоциативного правила может служить высказывание: "Если человек купил Ряженку, то он, скорее всего, купит товар из группы Хлебобулочные изделия". В статье приведены два метода вычисления обобщенных ассоциативных правил: базовый и улучшенный алгоритмы.

Страницы