В статье приведены результаты тестирования импорта и экспорта файлов на больших наборах данных. Приведены графики сравнения производительности различных форматов хранения.
В статье приведены результаты тестирования импорта и экспорта файлов на средних наборах данных. Приведены графики сравнения производительности различных форматов хранения.
В статье приведены результаты тестирования импорта и экспорта файлов на малых наборах данных. Приведены графики сравнения производительности различных форматов хранения.
Одним из возможных участков оптимизации является этапы импорта и экспорта данных в программу. В этой серии материалов, мы постараемся дать несколько капель полезной информации с точки зрения производительности работы программы с источниками данных.
ABC-анализ используется при решении множества задач. Однако выбрать пороги для ABC-групп не так просто, так как тяжело учесть влияние скрытых факторов на исследуемых процесс. Использование неактуальных параметров для определения ABC-групп может привести к ошибочным решениям. Метод касательных устраняет эту проблему.
Использование нейросетей, в частности, самоорганизующихся карт при добычи информации из больших объемов данных. Описаны подходы, позволяющие находить закономерности, основываясь на поиске схожих (близких) объектов.
Cтатья посвящена алгоритму KNN, который широко используется в Data Mining для решения задач классификации, так как он прост для программной реализации, а полученный результат легко поддается интерпретации. Рассмотрены базовые идеи, области применения алгоритма, приведены примеры
Ассоциативные правила широко применяются в Data Mining для решения задачи анализа рыночной корзины и других. Однако ассоциативные правила имеют ряд ограничений, которые не позволяют с их помощью охватывать некоторые аспекты анализа, представляющие большой практический интерес: не учитывают последовательность появления товаров и временную динамику продаж, а также не связывают наборы предметов в транзакции с определенным клиентом. Эти недостатки позволяют преодолеть последовательные шаблоны. В первой части статьи делается постановка задачи поиска последовательных шаблонов.
Анализ огромных баз данных – это нетривиальная задача, которая в большинстве случаев не решается "в лоб", однако современные базы данных и аналитические платформы предлагают множество методов решения этой задачи. При разумном их применении системы способны перерабатывать терабайты данных с приемлемой скоростью.