В аналитической платформе Deductor реализовано множество механизмов извлечения данных из файловых источников. Для анализа нескольких сотен записей вопрос производительности не является существенным, в этом случае выбор формата хранения определяется предпочтениями пользователя и устоявшимися на предприятии традициями.
Когда процесс обработки переходит на промышленный уровень и объёмы данных измеряются миллионами записей, ситуация сильно меняется. Разница во времени обработки одной записи в 0,01 сек при обработке 600 тыс. записей приводит к дополнительным затратам в полтора часа. Если требуется проводить обработку несколько раз - время увеличивается кратно количеству запусков. Зачастую результаты обработки должны использовать другие информационные системы предприятия, и есть определённое временное окно на выполнение необходимых расчетов и сохранение результатов.
Одним из методов оптимизации является сокращение времени импорта и экспорта данных в программу. Если ограничений по формату хранения данных на предприятии нет, возникают вопросы:
Попробуем ответить на эти вопросы в цикле статей о производительности Deductor при работе с файловыми источниками данных.
Полученные показатели не стоит рассматривать как абсолютные, важными являются отношения и пропорции в представленных результатах измерений. При наличии другого оборудования будут получены другие результаты, но соотношения останутся на прежнем уровне.
Тесты производились для различных вариантов представления, типов, форматов и объёмов данных.
Для желающих подобно ознакомиться с параметрами тестирования, предлагаем перейти по ссылке, представленной ниже.
Исходные параметры тестирования
В ходе тестирования были обнаружены следующие ограничения для некоторых источников данных:
Учитывая описанные выше ограничения, было принято решение о проведении нескольких этапов тестирования "в разных весовых категориях":