Социальные сети – сложные структуры, состоящие из множества узлов объединенных связями, анализ связей позволяет делать полезные и не очевидные выводы. В статье рассматриваются математические методы анализа информационных потоков в социальных сетях (Social Network Mining). Рассмотрен вопрос поиска наиболее "могущественного" узла, анализ связей групп в социальной сети и выводы, которые можно получить в результате проведенного анализа.
Кластеризация является одной из наиболее важных задач Data Mining. В настоящее время разработано большое количество методов и алгоритмов кластеризации, но, к сожалению, не все они могут эффективно работать с большими массивами данных, поэтому дальнейшие исследования в этом направлении связаны с преодолением этой проблемы.
Рассмотрены основные понятия и элементарные принципы функционирования сети Интернет, которые необходимо знать, занимаясь анализом веб-данных. В статье дается общее представление о Web Mining: определение, этапы, категории.
Ассоциативные правила широко применяются в Data Mining для решения задачи анализа рыночной корзины и других. Однако ассоциативные правила имеют ряд ограничений, которые не позволяют с их помощью охватывать некоторые аспекты анализа, представляющие большой практический интерес: не учитывают последовательность появления товаров и временную динамику продаж, а также не связывают наборы предметов в транзакции с определенным клиентом. Эти недостатки позволяют преодолеть последовательные шаблоны. В первой части статьи делается постановка задачи поиска последовательных шаблонов.
Анализ огромных баз данных – это нетривиальная задача, которая в большинстве случаев не решается "в лоб", однако современные базы данных и аналитические платформы предлагают множество методов решения этой задачи. При разумном их применении системы способны перерабатывать терабайты данных с приемлемой скоростью.
Описаны детали реализации библиотеки компонентов CubeBase. В частности, рассмотрены вопросы постоения срезов гиперкуба и отображения информации в виде сводной (кросс) таблицы.
Никакой самый изощренный метод сам по себе не даст хороший результат в задачах Data Mining, поэтому критически важной становится проблема не используемых алгоритмов, а качества исходных данных. Чаще всего именно качество данных является причиной неудачи. В статье описана методика, следуя которой, можно подготовить качественные данные в нужном объеме для анализа.
Описание модуля WavUtils. В качестве инструмента вейвлет-преобразования были выбраны вейвлеты Добеши - как наиболее хорошо изученные и удобные в вычислительном плане. Использование вейвлетов до 10 порядка включительно представляется достаточным для решения подавляющего большинства прикладных задач, связанных с цифровой обработкой сигналов.
Методы поиска обобщенных правил при вычислении используют информацию о группировке элементов (таксономию), что позволяет значительно расширить круг задач, решаемых алгоритмами поиска ассоциативных правил. Примером обобщенного ассоциативного правила может служить высказывание: "Если человек купил Ряженку, то он, скорее всего, купит товар из группы Хлебобулочные изделия". В статье приведены два метода вычисления обобщенных ассоциативных правил: базовый и улучшенный алгоритмы.