Часто бывает так, что в столбце некоторые данные отсутствуют в силу каких-либо причин (данные неизвестны, либо их забыли внести и т.п.). Удаление всех строк, содержащих пропущенные данные не всегда является способом решения проблемы, так как теряется информация по заполненным столбцам, либо в результате удаления данных для анализа может остаться слишком мало.
Для решения этой проблемы в Deductor предусмотрен специальный узел Заполнение пропусков, который может как читать настройки, сделанные в узле Качество данных, так и быть самостоятельным со своими параметрами.
В таблице приведены все возможные методы восстановления пропусков в зависимости от типа данных и того, является ли набор данных упорядоченным или нет.
| Метод | Неупорядоченное поле | Упорядоченное поле | ||
|---|---|---|---|---|
| Непрерывное | Дискретное | Непрерывное | Дискретное | |
| Оставить без изменения | + | + | + | + | 
| Заменять наиболее вероятным | + | + | + | + | 
| Заменять случайными значениями | + | + | + | + | 
| Заменять средним | + | + | ||
| Заменять медианой | + | + | ||
| Заменять значением Не задано | + | + | ||
| Интерполировать | + | |||
| Удалять записи | + | + | ||
Рассмотрим указанные методы:
Метод интерполяции доступен только для упорядоченных данных, чаще всего это временные ряды. Восстановление пропусков в столбцах, значения в которых упорядочены, можно рассматривать как интерполяцию значений функции в точках, где она неизвестна. Данная задача реализуется с помощью A-сплайнов.