Вход
Регистрация

Статьи

Быстродействие Deductor: файлы данных (до 10 млн. строк)

В статье приведены результаты тестирования импорта и экспорта файлов на больших наборах данных. Приведены графики сравнения производительности различных форматов хранения.

Быстродействие Deductor: файлы данных (до 1 млн. строк)

В статье приведены результаты тестирования импорта и экспорта файлов на средних наборах данных. Приведены графики сравнения производительности различных форматов хранения.

Быстродействие Deductor: файлы данных (до 100 тыс. строк)

В статье приведены результаты тестирования импорта и экспорта файлов на малых наборах данных. Приведены графики сравнения производительности различных форматов хранения.

Быстродействие Deductor: файлы данных (параметры тестирования)

Одним из возможных участков оптимизации является этапы импорта и экспорта данных в программу. В этой серии материалов, мы постараемся дать несколько капель полезной информации с точки зрения производительности работы программы с источниками данных.

Метод касательных в ABC-анализе

ABC-анализ используется при решении множества задач. Однако выбрать пороги для ABC-групп не так просто, так как тяжело учесть влияние скрытых факторов на исследуемых процесс. Использование неактуальных параметров для определения ABC-групп может привести к ошибочным решениям. Метод касательных устраняет эту проблему.

Использование самоорганизующихся карт в задачах кластеризации

Использование нейросетей, в частности, самоорганизующихся карт при добычи информации из больших объемов данных. Описаны подходы, позволяющие находить закономерности, основываясь на поиске схожих (близких) объектов.

Алгоритм ближайшего соседа

Cтатья посвящена алгоритму KNN, который широко используется в Data Mining для решения задач классификации, так как он прост для программной реализации, а полученный результат легко поддается интерпретации. Рассмотрены базовые идеи, области применения алгоритма, приведены примеры

Поиск последовательных шаблонов. Часть 2.

Во второй части статьи подробно рассматриваются алгоритмы нахождения последовательных шаблонов - AprioriAll, AprioriSome, DynamicSome.

Поиск последовательных шаблонов. Часть 1.

Ассоциативные правила широко применяются в Data Mining для решения задачи анализа рыночной корзины и других. Однако ассоциативные правила имеют ряд ограничений, которые не позволяют с их помощью охватывать некоторые аспекты анализа, представляющие большой практический интерес: не учитывают последовательность появления товаров и временную динамику продаж, а также не связывают наборы предметов в транзакции с определенным клиентом. Эти недостатки позволяют преодолеть последовательные шаблоны. В первой части статьи делается постановка задачи поиска последовательных шаблонов.

Анализ больших объемов данных

Анализ огромных баз данных – это нетривиальная задача, которая в большинстве случаев не решается "в лоб", однако современные базы данных и аналитические платформы предлагают множество методов решения этой задачи. При разумном их применении системы способны перерабатывать терабайты данных с приемлемой скоростью.

Страницы