Технологии интеллектуального анализа данных : учебное пособие

29 На этом этапе необходимо выработать общие правила преоб- разования, часть из которых должна быть представлена в виде про- граммных средств очистки. Тестирование правил очистки данных. Корректность и эф- фективность правил очистки данных должны тестироваться и оце- ниваться, например, на копиях данных источника. Это необходимо для выяснения необходимости корректировки правил с целью их улучшения или исправления ошибок. Этапы определения правил и их тестирование могут выпол- няться итерационно несколько раз, например, из-за того, что неко- торые ошибки становятся заметны только после определенных преобразований. Непосредственная очистка данных. На этом этапе выполня- ются преобразования в соответствии с определенными ранее пра- вилами. Очистка выполняется в два приема. Сначала устраняются проблемы, связанные с отдельными источниками данных, а затем – проблемы множества БД. Над отдельными ОИД выполняются следующие процедуры:  расщепление атрибутов – данная процедура извлекает зна- чения из атрибутов свободного формата для повышения точности представления и поддержки последующих этапов очистки – сопос- тавление элементов данных и исключение дубликатов. Необходи- мые на этом этапе преобразования перераспределяют значения в поле для получения возможности перемещения слов и извлекают значения для расщепленных атрибутов;  проверка допустимости и исправления – данная процедура исследует каждый элемент данных источника на наличие ошибок. Обнаруженные ошибки автоматически исправляются (если это возможно). Проверка на наличие орфографических ошибок выпол- няется на основе просмотра словаря. Словари географических на- именований и почтовых индексов помогают корректировать адрес-

RkJQdWJsaXNoZXIy MTY0OTYy