Вход
Регистрация

Быстродействие Deductor: файлы данных ( часть 1 )

Вступление

В аналитической платформе Deductor реализовано множество механизмов извлечения данных из файловых источников. Для анализа нескольких сотен записей вопрос производительности не является существенным, в этом случае выбор формата хранения определяется предпочтениями пользователя и устоявшимися на предприятии традициями.

Когда процесс обработки переходит на промышленный уровень и объёмы данных измеряются миллионами записей, ситуация сильно меняется. Разница во времени обработки одной записи в 0,01 сек при обработке 600 тыс. записей приводит к дополнительным затратам в полтора часа. Если требуется проводить обработку несколько раз - время увеличивается кратно количеству запусков. Зачастую результаты обработки должны использовать другие информационные системы предприятия, и есть определённое временное окно на выполнение необходимых расчетов и сохранение результатов.

Одним из методов оптимизации является сокращение времени импорта и экспорта данных в программу. Если ограничений по формату хранения данных на предприятии нет, возникают вопросы:

  • Есть ли разница между ними?
  • Что лучше использовать и в каких ситуациях?

Попробуем ответить на эти вопросы в цикле статей о производительности Deductor при работе с файловыми источниками данных.

Полученные показатели не стоит рассматривать как абсолютные, важными являются отношения и пропорции в представленных результатах измерений. При наличии другого оборудования будут получены другие результаты, но соотношения останутся на прежнем уровне.

Параметры тестирования

Тесты производились для различных вариантов представления, типов, форматов и объёмов данных.

Для желающих подобно ознакомиться с параметрами тестирования, предлагаем перейти по ссылке, представленной ниже.

Исходные параметры тестирования

Ограничения источников данных

В ходе тестирования были обнаружены следующие ограничения для некоторых источников данных: 

  1. Excel 2003 не поддерживает файлы с количеством строк больше 65535. Дополнительная информация (первая строка в таблице)
  2. Excel 2007 не поддерживает файлы с количеством строк больше 1048575. Дополнительная информация (вторая строка в таблице)
  3. Максимальный размер файла .dbf - 2 ГБ. Дополнительная информация (строка Bytes in .DBF (Table) file)

Этапы тестирования

Учитывая описанные выше ограничения, было принято решение о проведении нескольких этапов тестирования "в разных весовых категориях":

  1. Легкий вес - малые объемы данных (до 100 тыс записей).
  2. Средний вес - средние объемы данных (до 1 млн. записей).
  3. Тяжелый вес - достойные объемы данных (до 10 млн. записей).

Результаты тестирования