Вход
Регистрация

Быстродействие Deductor: файлы данных (до 10 млн. строк)

На заключительном этапе тестирования анализировалась скорость импорта/экспорта в Deductor 5.3 для оставшихся на дистанции файловых источников данных: txt, csv, ddf.

Тестирование проводилось для наборов данных с кол-вом записей от 2 млн. до 10 млн. с шагом 2 млн.

В ходе тестирования было осуществлено около 1 тыс. прогонов. Общее время выполнения процесса тестирования этого этапа составило чуть больше 126 часов непрерывной работы программы.

Время импорта/экспорта

В качестве примера приведем средние показатели зависимости времени импорта/экспорта от количества записей в файле. Количество полей фиксировано =8.

Рисунок 1. Время импорта из файловых источников (до 10 млн.зап.). Рисунок 2. Время экспорта в файловые источники (до 10 млн.зап.).

Представление полученных данных по времени выполнения для всех проведенных тестов потребует отображения порядка 60 графиков. По этой причине полученные результаты приведены к показателю скорости, использование которого позволяет представить результаты всех измерений в наиболее компактном виде.

Скорость импорта/экспорта

Из-за ограничения на максимальное количество строк у файлов xls и xlsx, а также ограниченного размера dbf-файлов (2 Гб), данные файлы в дальнейшем анализироваться не будут. Таким образом, здесь представлен анализ следующих файловых источников: csv, txt и ddf.

Рисунок 3. Скорость импорта - файлы данных (до 10 млн.зап..). Рисунок 4. Скорость экспорта - файлы данных (до 10 млн.зап.).

Анализ показывает, что наибольшим быстродействием, по-прежнему, обладают ddf-файлы (рисунки 3 и 4).

Среди оставшихся двух файловых источников можно выделить файлы csv, которые незначительно превосходят по скорости файлы txt, оказавшиеся наименее «быстрыми».

Из рисунка 5 видно, что скорость экспорта у представленных файловых источников (на больших объёмах данных) ниже скорости импорта

Размеры файлов

На основании результатов анализа можно заключить, что наиболее компактный формат хранения числовых типов данных и типов данных «Дата» – это ddf-файлы, в то время как csv-файлы демонстрируют лучшие результаты в случае строковых форматов.

В качестве примера в таблице (Таблица 1) представлены данные о размерах (в Мб) файлов-источников в зависимости от формата данных. Данные представлены для файлов, содержащих 8 столбцов и 10 миллионов строк.

Формат данных Формат файлов
4. txt 5. csv 6. ddf
1.Целые числа 1 239,78 764,00 686,65
2.Дробные числа 1 239,78 916,57 686,65
3.Даты 1 239,78 848,77 686,65
4.Строки: с повторениями 1 926,42 658,80 1 789,86
5.Строки: 50 случайных букв 3 910,07 3 900,53 4 997,25
Таблица 1. Размеры файлов в Мб (10 миллионов записей, 8 столбцов).

На рисунке 7 представлена зависимость размера файлов от количества записей при фиксированном количестве полей (8 полей). Графики получены агрегированием показателей для всех представленных типов данных.

Как видно из графиков, размер файлов линейно зависит от количества записей в файле. Наибольшую скорость роста размера файла демонстрируют txt-файлы, а наименьшую – csv-файлы.

Рассылка материалы о Loginom