Вход
Регистрация

Заполнение пропусков

Часто бывает так, что в столбце некоторые данные отсутствуют в силу каких-либо причин (данные неизвестны, либо их забыли внести и т.п.). Удаление всех строк, содержащих пропущенные данные не всегда является способом решения проблемы, так как теряется информация по заполненным столбцам, либо в результате удаления данных для анализа может остаться слишком мало.

Для решения этой проблемы в Deductor предусмотрен специальный узел Заполнение пропусков, который может как читать настройки, сделанные в узле Качество данных, так и быть самостоятельным со своими параметрами.

В таблице приведены все возможные методы восстановления пропусков в зависимости от типа данных и того, является ли набор данных упорядоченным или нет.

Метод Неупорядоченное поле Упорядоченное поле
Непрерывное Дискретное Непрерывное Дискретное
Оставить без изменения + + + +
Заменять наиболее вероятным + + + +
Заменять случайными значениями + + + +
Заменять средним + +
Заменять медианой + +
Заменять значением Не задано + +
Интерполировать +
Удалять записи + +

Рассмотрим указанные методы:

  • Заменять наиболее вероятным – в случае непрерывных данных замена производится на среднее значение из наиболее вероятного интервала, число интервалов варьируется в зависимости от объема выборки – чем она больше, тем больше интервалов; в дискретном случае – выбирается значение с наибольшей вероятностью.
  • Заменять случайными значениями – производится замена пропусков на случайное значение из распределения, параметры которого оцениваются из имеющихся значений в столбце.
  • Заменять средним – рассчитывается среднее значением, которым заменяются все пропуски.
  • Заменять медианой – рассчитывается медиана и ей заменяются все пропуски.
  • Заменять значением Не задано – доступно только для дискретного поля, выполняется замена пропусков на значение «Не задано». Метод доступен для строковых полей.
  • Удалять записи – строки с выявленными пропусками исключаются из набора данных. Метод недоступен для упорядоченных рядов.

Метод интерполяции доступен только для упорядоченных данных, чаще всего это временные ряды. Восстановление пропусков в столбцах, значения в которых упорядочены, можно рассматривать как интерполяцию значений функции в точках, где она неизвестна. Данная задача реализуется с помощью A-сплайнов.