Вход
Регистрация

Статьи

Подготовка исходных данных для анализа

Никакой самый изощренный метод сам по себе не даст хороший результат в задачах Data Mining, поэтому критически важной становится проблема не используемых алгоритмов, а качества исходных данных. Чаще всего именно качество данных является причиной неудачи. В статье описана методика, следуя которой, можно подготовить качественные данные в нужном объеме для анализа.

Выявление обобщенных ассоциативных правил

Методы поиска обобщенных правил при вычислении используют информацию о группировке элементов (таксономию), что позволяет значительно расширить круг задач, решаемых алгоритмами поиска ассоциативных правил. Примером обобщенного ассоциативного правила может служить высказывание: "Если человек купил Ряженку, то он, скорее всего, купит товар из группы Хлебобулочные изделия". В статье приведены два метода вычисления обобщенных ассоциативных правил: базовый и улучшенный алгоритмы.

Самоорганизующиеся карты Кохонена — математический аппарат

Самоорганизующиеся карты Кохонена – это одна из разновидностей нейросетевых алгоритмов. Этот алгоритм решает задачи кластеризации и проецирования многомерного пространства в пространство с более низкой размерностью. Он часто применяются для решения самых различных задач, от восстановления пропусков в данных до анализа и поиска закономерностей.

FPG — альтернативный алгоритм поиска ассоциативных правил

Кроме алгоритма a priori, для поиска ассоциативных правил является алгоритм, получивший название Frequent Pattern-Growth (FPG), что можно перевести как «выращивание популярных (часто встречающихся) предметных наборов». Он позволяет не только избежать затратной процедуры генерации кандидатов, но уменьшить необходимое число проходов по набору данных до двух.

Data Mining — добыча данных

Развитие методов записи и хранения данных привело к бурному росту объемов собираемой и анализируемой информации. Объемы данных настолько внушительны, что человеку просто не по силам проанализировать их самостоятельно. Для того чтобы провести автоматический анализ данных, используется Data Mining.

Ассоциативная память — применение сетей Хемминга для нечеткого поиска

Компьютер используется для поиска информации адрес, а человек ассоциации. Принципиальную ограниченность современных компьютеров можно обойти при помощи различного рода систем ассоциативной памяти, например, сетей Хемминга. Описание алгоритма и пример работы.

Деревья решений — CART математический аппарат. Часть 2

Вторая часть описания математического аппарата алгоритма CART. Описаны вопросы построения оптимального дерева, обработки пропущенных значений, отсечения ветвей, решения задачи регрессии.

Knowledge Discovery in Databases — обнаружение знаний в базах данных

Knowledge Discovery in Databases – это процесс поиска полезных знаний в "сырых данных". KDD включает в себя вопросы: подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining, постобработки данных и интерпретации полученных результатов.

Применение нейронных сетей для задач классификации

Решение задачи классификации является одним из важнейших применений нейронных сетей. Задача классификации представляет собой задачу отнесения образца к одному из нескольких попарно не пересекающихся множеств.

Методы отбора переменных в регрессионные модели

Статья посвящена проблеме отбора факторов (Feature Selection) в случае с линейной моделью множественной регрессии. Рассмотрены такие итерационные алгоритмы по выбору независимых переменных как Forward Selection, Backward Elimination, Stepwise, а также изложена идея частного F-критерия, на основе которого осуществляется проверка на значимость входных признаков. Механизм работы каждой из методик разобран на конкретном примере.

Страницы