На заключительном этапе тестирования анализировалась скорость импорта/экспорта в Deductor 5.3 для оставшихся на дистанции файловых источников данных: txt, csv, ddf.
Тестирование проводилось для наборов данных с кол-вом записей от 2 млн. до 10 млн. с шагом 2 млн.
В ходе тестирования было осуществлено около 1 тыс. прогонов. Общее время выполнения процесса тестирования этого этапа составило чуть больше 126 часов непрерывной работы программы.
В качестве примера приведем средние показатели зависимости времени импорта/экспорта от количества записей в файле. Количество полей фиксировано =8.
Представление полученных данных по времени выполнения для всех проведенных тестов потребует отображения порядка 60 графиков. По этой причине полученные результаты приведены к показателю скорости, использование которого позволяет представить результаты всех измерений в наиболее компактном виде.
Из-за ограничения на максимальное количество строк у файлов xls и xlsx, а также ограниченного размера dbf-файлов (2 Гб), данные файлы в дальнейшем анализироваться не будут. Таким образом, здесь представлен анализ следующих файловых источников: csv, txt и ddf.
Анализ показывает, что наибольшим быстродействием, по-прежнему, обладают ddf-файлы (рисунки 3 и 4).
Среди оставшихся двух файловых источников можно выделить файлы csv, которые незначительно превосходят по скорости файлы txt, оказавшиеся наименее «быстрыми».
Из рисунка 5 видно, что скорость экспорта у представленных файловых источников (на больших объёмах данных) ниже скорости импорта
На основании результатов анализа можно заключить, что наиболее компактный формат хранения числовых типов данных и типов данных «Дата» – это ddf-файлы, в то время как csv-файлы демонстрируют лучшие результаты в случае строковых форматов.
В качестве примера в таблице (Таблица 1) представлены данные о размерах (в Мб) файлов-источников в зависимости от формата данных. Данные представлены для файлов, содержащих 8 столбцов и 10 миллионов строк.
Формат данных | Формат файлов | ||
---|---|---|---|
4. txt | 5. csv | 6. ddf | |
1.Целые числа | 1 239,78 | 764,00 | 686,65 |
2.Дробные числа | 1 239,78 | 916,57 | 686,65 |
3.Даты | 1 239,78 | 848,77 | 686,65 |
4.Строки: с повторениями | 1 926,42 | 658,80 | 1 789,86 |
5.Строки: 50 случайных букв | 3 910,07 | 3 900,53 | 4 997,25 |
На рисунке 7 представлена зависимость размера файлов от количества записей при фиксированном количестве полей (8 полей). Графики получены агрегированием показателей для всех представленных типов данных.
Как видно из графиков, размер файлов линейно зависит от количества записей в файле. Наибольшую скорость роста размера файла демонстрируют txt-файлы, а наименьшую – csv-файлы.