Технологии интеллектуального анализа данных : учебное пособие

25 Рассмотрим перечисленные уровни и соответствующие им проблемы более подробно. Уровень ячейки таблицы. На данном уровне задача очист- ки заключается в анализе и исправлении ошибок в данных, хранящихся в ячейках таблиц БД. К таким ошибкам можно отнести: 1) орфографические (опечатки) – возникают при вводе ин- формации, могут привести к неправильному пониманию, а также к искажению реальных данных. Например, при продаже товара вместо количества 1000 было введено 10 000 или вместо названия товара «Водка» было введено название «Вода»; 2) отсутствие данных – происходит из-за отсутствия у опера- тора соответствующих данных при вводе информации. Главной задачей OLTP-систем является обеспечение ежедневных операций с данными, поэтому оператор может пропустить ввод неизвестных ему данных, а не тратить время на их выяснение. Как следствие, в БД могут оставаться незаполненные ячейки (содержащие значе- ние NULL); 3) фиктивные значения – значения, введенные оператором, но не имеющие смысла. Наиболее часто такая проблема встречает- ся в полях, обязательных для заполнения, но при отсутствии у опе- ратора реальных данных он вынужден вводить бессмысленные данные. Например: номер социального страхования 999-99-9999 или возраст клиента 999, или почтовый индекс 999999. Проблема усугубляется, если существует вероятность появления реальных данных, которые могут быть приняты за фиктивные. Например, номер социального страхования 888-88-8888 для указания на статус клиента-иностранца «нерезидент» или месячный доход в размере $99,999.99 для указания на то, что клиент имеет работу;

RkJQdWJsaXNoZXIy MTY0OTYy