Данный механизм обработки позволяется выявить в исходной выборке данных дублирующие и противоречивые записи.
Дубликаты - это одинаковые данные (записи). Дубликаты приводят к избыточности, увеличивают объем выборки, при этом не повышая информативность данных.
Противоречивыми являются записи, если они содержат одинаковые наборы значений для входных признаков и различные наборы значений выходных признаков. Противоречия приводят к искажению результата анализа и снижают качество моделей, поскольку нарушают общие закономерности в данных, обнаружение которых и является целью анализа.
Алгоритм ищет наборе в данных записи, для которых одинаковым входным полям соответствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных поля – Дубликат и Противоречие, принимающие значения истина или ложь, и дополнительные поля Группа дубликатов и Группа противоречий. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми.