Технологии интеллектуального анализа данных : учебное пособие

24 ния операции вычисления стоимости всех товаров можно создать специальное поле для ее хранения во время преобразования данных;  очистка данных (cleaning) – направлена на выявление и удаление ошибок и несоответствий в данных для улучшения их качества. Проблемы с качеством встречаются в отдельных ОИД, например в файлах и БД могут быть ошибки при вводе, отдельная информация может быть утрачена, могут присутствовать «загряз- нения» данных и др. Очистка также применяется для согласования атрибутов полей таким образом, чтобы они соответствовали атри- бутам базы данных назначения. После преобразования данных для размещения в ХД осуществ- ляется этап их загрузки, на котором выполняется запись преобразо- ванных детальных и агрегированных данных. Кроме того, при записи новых детальных данных часть старых может переноситься в архив. Одной из важных задач, решаемых при переносе данных в ХД, является их очистка. С одной стороны, данные загружаются постоянно из различных источников, поэтому вероятность попада- ния «грязных данных» весьма высока, с другой – ХД используются для принятия решений и «грязные данные» могут стать причиной принятия неверных решений. Таким образом, процедура очистки является обязательной при переносе данных из ОИД в ХД. Ввиду большого спектра воз- можных несоответствий в данных их очистка считается одной из самых крупных проблем в технологии ХД. Основные проблемы очистки данных можно классифицировать по следующим уровням:  уровень ячейки таблицы;  уровень записи;  уровень таблицы БД;  уровень одиночной БД;  уровень множества БД.

RkJQdWJsaXNoZXIy MTY0OTYy