Технологии интеллектуального анализа данных : учебное пособие

27 - противоречивые записи (об одном человеке в разных случа- ях введена разная информация о дате рождения, хотя значения по- лей уникальны): empl= ( name="JohnSmith",bdate=12.02.70 ); emp2= ( name="J.Smith", bdate=12.12.70 ). Уровень одиночной БД. На данном уровне, как правило, воз- никают проблемы, связанные с нарушением целостности данных. Уровень множества БД. На данном уровне возникают про- блемы, связанные с неоднородностью как структур БД, так и хра- нящейся в них информации. При решении задачи очистки данных, прежде всего, необхо- димо отдавать себе отчет в том, что не все проблемы могут быть устранены. Возможны ситуации, когда данные не существуют и не могут быть восстановлены, вне зависимости от количества при- ложенных усилий. Встречаются ситуации, когда значения настоль- ко запутаны или найдены в стольких несопоставимых местах с та- кими на вид различными и противоположными значениями одного и того же факта, что любая попытка расшифровать такие данные может породить еще более неверные результаты, и, возможно, лучшим решением будет отказ от их обработки. Но не все данные нужно очищать. Как уже отмечалось, процесс очистки требует больших затрат, поэтому те данные, достоверность которых не влияет на процесс принятия решений, могут оставаться неочи- щенными. В целом, очистка данных включает несколько этапов: 1) выявление проблем в данных; 2) определение правил очистки данных; 3) тестирование правил очистки данных; 4) непосредственная очистка данных.