Часто бывает так, что в столбце некоторые данные отсутствуют в силу каких-либо причин (данные неизвестны, либо их забыли внести и т.п.). Удаление всех строк, содержащих пропущенные данные не всегда является способом решения проблемы, так как теряется информация по заполненным столбцам, либо в результате удаления данных для анализа может остаться слишком мало.
Для решения этой проблемы в Deductor предусмотрен специальный узел Заполнение пропусков, который может как читать настройки, сделанные в узле Качество данных, так и быть самостоятельным со своими параметрами.
В таблице приведены все возможные методы восстановления пропусков в зависимости от типа данных и того, является ли набор данных упорядоченным или нет.
Метод | Неупорядоченное поле | Упорядоченное поле | ||
---|---|---|---|---|
Непрерывное | Дискретное | Непрерывное | Дискретное | |
Оставить без изменения | + | + | + | + |
Заменять наиболее вероятным | + | + | + | + |
Заменять случайными значениями | + | + | + | + |
Заменять средним | + | + | ||
Заменять медианой | + | + | ||
Заменять значением Не задано | + | + | ||
Интерполировать | + | |||
Удалять записи | + | + |
Рассмотрим указанные методы:
Метод интерполяции доступен только для упорядоченных данных, чаще всего это временные ряды. Восстановление пропусков в столбцах, значения в которых упорядочены, можно рассматривать как интерполяцию значений функции в точках, где она неизвестна. Данная задача реализуется с помощью A-сплайнов.