Технологии интеллектуального анализа данных : учебное пособие

238 рых одинаковым входным полям соответствуют одинаковые (дуб- ликаты) или разные (противоречия) выходные поля. Настройка алгоритма выявления дубликатов и противоречий заключается в выборе назначений полей исходной выборки дан- ных, т.е. в выборе, какие поля входные, а какие – выходные. Обработка дубликатов или противоречий не проводится в тех случаях, когда дубликаты или противоречия были преднамеренно введены в исходные данные. Как правило, этот метод применяется только к одной из описываемых аномалий, т.е. либо только дубли- каты, либо только противоречия остаются без обработки. Кроме того, дубликаты или противоречия могут быть вполне естествен- ными для анализируемого процесса, но чаще всего требуется спе- циальная обработка подобных данных. Наличие дубликатов и противоречий может приводить к полному обесцениванию строк, содержащих подобные отклоне- ния. Считается, что присутствие подобных ошибок делает инфор- мацию недостоверной. Такая ситуация возникает, например, при обработке социологических данных, когда наличие дубликатов или противоречий свидетельствует о недобросовестности респон- дента и вызывает недоверие ко всей предоставленной им инфор- мации. В этом случае все записи, формирующие группу дублика- тов или противоречий, должны быть удалены. Это первый способ обработки. Существует еще один, наиболее естественный, способ обра- ботки дубликатов. Поскольку все дубликаты представляют собой копии одних и тех же данных, они могут быть сведены к одной за- писи набора данных, содержащей уникальную копию таких значе- ний. К противоречиям также применим подобный метод обработ- ки, но с некоторыми ограничениями. Напомним, что противоречи- вые записи содержат одинаковые входные значения, но различные