Быстродействие Deductor: файлы данных ( часть 1 )
21 марта 2017

Вступление

В аналитической платформе Deductor реализовано множество механизмов извлечения данных из файловых источников. Для анализа нескольких сотен записей вопрос производительности не является существенным, в этом случае выбор формата хранения определяется предпочтениями пользователя и устоявшимися на предприятии традициями.

Когда процесс обработки переходит на промышленный уровень и объёмы данных измеряются миллионами записей, ситуация сильно меняется. Разница во времени обработки одной записи в 0,01 сек при обработке 600 тыс. записей приводит к дополнительным затратам в полтора часа. Если требуется проводить обработку несколько раз - время увеличивается кратно количеству запусков. Зачастую результаты обработки должны использовать другие информационные системы предприятия, и есть определённое временное окно на выполнение необходимых расчетов и сохранение результатов.

Одним из методов оптимизации является сокращение времени импорта и экспорта данных в программу. Если ограничений по формату хранения данных на предприятии нет, возникают вопросы:

Есть ли разница между ними?
Что лучше использовать и в каких ситуациях?

Попробуем ответить на эти вопросы в цикле статей о производительности Deductor при работе с файловыми источниками данных.

Полученные показатели не стоит рассматривать как абсолютные, важными являются отношения и пропорции в представленных результатах измерений. При наличии другого оборудования будут получены другие результаты, но соотношения останутся на прежнем уровне.

Параметры тестирования

Тесты производились для различных вариантов представления, типов, форматов и объёмов данных.

Для желающих подобно ознакомиться с параметрами тестирования, предлагаем перейти по ссылке, представленной ниже.

Исходные параметры тестирования

Ограничения источников данных

В ходе тестирования были обнаружены следующие ограничения для некоторых источников данных:

Excel 2003 не поддерживает файлы с количеством строк больше 65535. Дополнительная информация (первая строка в таблице)
Excel 2007 не поддерживает файлы с количеством строк больше 1048575. Дополнительная информация (вторая строка в таблице)
Максимальный размер файла .dbf - 2 ГБ. Дополнительная информация (строка Bytes in .DBF (Table) file)

Этапы тестирования

Учитывая описанные выше ограничения, было принято решение о проведении нескольких этапов тестирования "в разных весовых категориях":

Легкий вес - малые объемы данных (до 100 тыс записей).
Средний вес - средние объемы данных (до 1 млн. записей).
Тяжелый вес - достойные объемы данных (до 10 млн. записей).

Результаты тестирования

Продолжение - Часть 2

Предыдущая запись:

26 декабря 2016 Версия Deductor и номер лицензии/ключа

Следующая запись:

13 апреля 2017 Быстродействие Deductor: файлы данных (часть 2 )

basegroup.support

Другие посты автора:

Рассылка материалы о Loginom

На вашу электронную почту отправлено письмо, в котором ссылка для подверждения регистрации

Восстановление пароля

Быстродействие Deductor: файлы данных ( часть 1 ) 21 марта 2017