Вход
Регистрация

Дубликаты и противоречия

Данный механизм обработки позволяется выявить в исходной выборке данных дублирующие и противоречивые записи.

Дубликаты - это одинаковые данные (записи). Дубликаты приводят к избыточности, увеличивают объем выборки, при этом не повышая информативность данных.

Противоречивыми являются записи, если они содержат одинаковые наборы значений для входных признаков и различные наборы значений выходных признаков. Противоречия приводят к искажению результата анализа и снижают качество моделей, поскольку нарушают общие закономерности в данных, обнаружение которых и является целью анализа.

Алгоритм ищет наборе в данных записи, для которых одинаковым входным полям соответствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных поля – Дубликат и Противоречие, принимающие значения истина или ложь, и дополнительные поля Группа дубликатов и Группа противоречий. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми.

Рассылка материалы о Loginom