Технологии интеллектуального анализа данных : учебное пособие

237 с одинаковым кодом, но с разной ценой как раз и создает противо- речие. Обычно бывает так, что только одна запись из группы про- тиворечивых является правильной, а остальные – ошибочными. Очевидно, что присутствие ошибочных данных искажает результа- ты анализа, поэтому противоречивые данные чаще всего лучше вообще исключить из исходной выборки. Однако следует заметить, что искусственное введение противоречий в исходные данные мо- жет быть полезным, например, если нужно ввести некоторую неопределенность в данные, кроме того противоречия могут отра- жать особенности поведения анализируемого объекта. Также в данных могут встречаться записи с одинаковыми входными факторами и одинаковыми выходными, т.е. дубликаты. Эти данные чаще всего избыточны, хотя присутствие дубликатов в анализируемых данных можно рассматривать как способ повыше- ния «значимости» дублирующейся информации. В некоторых слу- чаях такой прием может быть полезен, например, если при обуче- нии нейросети нужно особо выделить и усилить влияние некото- рых наборов значений. В других случаях дублирование может ука- зывать на ошибки при подготовке исходных данных. Дубликаты могут искажать результаты некоторых методов анализа, например, статистического. В процессе анализа иногда возникает проблема выявления дубликатов и противоречий в данных.  Дубликаты – записи в таблице, все входные и выходные поля которых одинаковые.  Противоречия – записи в таблице, у которых все входные поля одинаковые, но отличаются хотя бы по одному выходному полю. Суть обработки состоит в том, что определяются входные и выходные поля. Алгоритм ищет во всем наборе записи, для кото-

RkJQdWJsaXNoZXIy MTY0OTYy