Вход
Регистрация

Статьи

Быстродействие Deductor: файлы данных (до 10 млн. строк)

В статье приведены результаты тестирования импорта и экспорта файлов на больших наборах данных. Приведены графики сравнения производительности различных форматов хранения.

Быстродействие Deductor: файлы данных (до 1 млн. строк)

В статье приведены результаты тестирования импорта и экспорта файлов на средних наборах данных. Приведены графики сравнения производительности различных форматов хранения.

Быстродействие Deductor: файлы данных (до 100 тыс. строк)

В статье приведены результаты тестирования импорта и экспорта файлов на малых наборах данных. Приведены графики сравнения производительности различных форматов хранения.

Кластеризация категорийных данных: масштабируемый алгоритм CLOPE

Разбиение на группы со схожими характеристиками категорийных и транзакционных массивов данных в больших БД является важнейшей задачей Data Mining. Традиционные алгоритмы кластеризации в большинстве случаев не эффективны при обработке сверхбольших баз данных. В материале рассказывается о масштабируемом эвристическом алгоритме CLOPE, который позволяет проводить кластеризацию с высоким качеством и производительностью.