Процесс извлечения знаний из данных происходит по той же схеме, что и установление физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты очевидными и, во-вторых, дает возможность предсказать новые факты. При этом имеется ясное понимание того, что наши знания об анализируемом процессе, как и любом физическом явлении, в какой-то степени приближение.
Современные базы данных имеют очень большие размеры, достигающие гига- и терабайтов, и тенденцию к дальнейшему увеличению. И поэтому, для нахождения ассоциативных правил требуются эффективные масштабируемые алгоритмы, позволяющие решить задачу за приемлемое время. Об одном из таких алгоритмов и пойдет речь в данной статье. Мы опишем алгоритм Apriori.
Описан подход к анализу данных, позволяющий получить целостную картину об исследуемом процессе. Этот подход дает возможность, используя различные технологии, комбинировать методы анализа и в любом случае выжать максимум из имеющейся информации.
В материале рассказано об интерпретации данных комплекса геофизических исследований скважин интеллектуальными алгоритмами обработки информации: искусственными нейронными сетями, деревьями решений, самоорганизующимися картами. Предлагаемый подход может использоваться для предварительной оценки продуктивности скважин, а в сложных ситуациях - помочь геофизику принять эмпирически обоснованное решение.
В основе генетического алгоритма лежит метод случайного поиска. Основным недостатком случайного поиска является то, что неизвестно сколько понадобится времени для решения задачи. Для того, чтобы избежать таких расходов времени при решении задачи применяются методы, проявившиеся в биологии. При этом используются методы, открытые при изучении эволюции и происхождения видов. Как известно, в процессе эволюции выживают наиболее приспособленные особи, что приводит к тому что приспособленность популяции возрастает, что позволяет ей лучше выживать в изменяющихся условиях
В Интернете и прессе можно найти много информации об OLAP системах, но практически нигде не сказано о том, как это устроено внутри. Надеемся, что данный материал частично заполнит этот пробел. Это высокопроизводительное ядро является основой OLAP модуля, встроенного в Deductor.
Статья посвящена одному из ключевых моментов в кредитовании физических лиц - определению кредитоспособности потенциального заемщика. Для решения данной задачи предлагается использовать деревья решений - один из популярных Data Mining алгоритмов.
Объемы современных баз данных, которые весьма внушительны, вызвали устойчивый спрос на новые масштабируемые алгоритмы анализа данных. Одним из популярных методов обнаружения знаний стали алгоритмы поиска ассоциативных правил. Ассоциативные правила позволяют находить закономерности между связанными событиями. Примером такого правила, служит утверждение, что покупатель, приобретающий "Хлеб", приобретет и "Молоко" с вероятностью 75%.
В этой статье будет описана типичная задача, решаемая при помощи нахождения ассоциативных зависимостей. Речь идет о механизмах стимулирования продаж, базирующихся на знаниях о наиболее типичном поведении покупателей при оформлении заказов. Применение ассоциативных правил позволяет предугадать, что, вероятнее всего, приобретет клиент, и предложить именно этот товар.
Несколько советов, на основании которых каждый может построить целое семейство вейвлетов "в домашних условиях" и оценить достоинства вейвлет-анализа, применив их к имеющимся данным.