Вторая часть математического аппарата построения деревьев решений - алгоритм C4.5. Рассмотрены вопросы улучшения критерия разбиения, работы с пропущенными данными и классификации новых примеров.
Описание библиотеки классов NeuralBase. Основным назначением библиотеки является интеграция нейронных сетей в информационные системы, для расширения аналитических возможностей систем.
Описание метода построения деревьев решений, который впервые был предложен Р. Куинленом (R. Quinlan). Этот метод используется в одном из лучших алгоритмов построения деревьев решений C4.5.
В статье рассказывается о математическом аппарате и назначении бинарной логистической регрессии – популярного инструмента для решения задач регрессии и классификации. ROC-анализ тесно связан с бинарной логистической регрессией и применяется для оценки качества моделей: позволяет выбрать аналитику модель с наилучшей прогностической силой, проанализировать чувствительность и специфичность моделей, подобрать порог отсечения.
Данный материал - попытка систематизировать и дать целостный взгляд на последние достижения в области разработки эффективных подходов к кластеризации данных. Целью материала не являлось подробное описание всех алгоритмов кластеризации. Наоборот, обзорный характер статьи и затронутая проблематика помогут сориентироваться в огромном количестве алгоритмов кластеризации.
В статье рассказывается о генетических алгоритмах (ГА), в которых хромосома представляется вектором вещественных чисел. Такой вид ГА получил название непрерывного генетического алгоритма (Real-Coded GA). В отличие от классического ГА, в real-coded алгоритме нет необходимости в операциях кодирования/декодирования, поэтому он более предпочтителен для решения задач оптимизации в непрерывных пространствах. Из статьи вы узнаете о преимуществах непрерывных ГА и познакомитесь с наиболее популярными их реализациями.
Деревья решений – один из методов автоматического анализа данных. Они позволяют представлять правила в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если... то...". Описаны общие принципы работы и области применения деревьев решений.
Описание одного из наиболее популярных алгоритмов построения деревьев решений - CART (Classification And Regression Tree). Алгоритм, предложенный Бриманом и др. в 1984 году, предназначен для решения задач классификации и регрессии. Результатом его работы является бинарное дерево решений.
Процесс извлечения знаний из данных происходит по той же схеме, что и установление физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты очевидными и, во-вторых, дает возможность предсказать новые факты. При этом имеется ясное понимание того, что наши знания об анализируемом процессе, как и любом физическом явлении, в какой-то степени приближение.
Современные базы данных имеют очень большие размеры, достигающие гига- и терабайтов, и тенденцию к дальнейшему увеличению. И поэтому, для нахождения ассоциативных правил требуются эффективные масштабируемые алгоритмы, позволяющие решить задачу за приемлемое время. Об одном из таких алгоритмов и пойдет речь в данной статье. Мы опишем алгоритм Apriori.