Технологии интеллектуального анализа данных : учебное пособие
28 Выявление проблем в данных. Для выявления подлежащих удалению видов ошибок и несоответствий необходим подробный анализ данных. Наряду с ручной проверкой следует использовать аналитические программы. Существует два взаимосвязанных мето- да анализа: профайлинг данных и Data Mining. Профайлинг данных ориентирован на грубый анализ отдель- ных атрибутов данных. При этом происходит получение, например, такой информации, как тип, длина, спектр значений, дискретные значения данных и их частота, изменение, уникальность, наличие неопределенных значений, типичных строковых моделей (напри- мер, для номеров телефонов) и другие, что позволяет обеспечить точное представление различных аспектов качества атрибута. Data Mining помогает найти специфические модели в боль- ших наборах данных, например отношения между несколькими атрибутами. Именно на это направлены так называемые описатель- ные модели Data Mining, включая группировку, обобщение, поиск ассоциаций и последовательностей. При этом могут быть получены ограничения целостности в атрибутах. Например, функциональные зависимости или характерные для конкретных приложений бизнес- правила, которые можно использовать для восполнения утрачен- ных и исправления недопустимых значений, а также для выявления дубликатов записей в источниках данных. Определение правил очистки данных. В зависимости от чис- ла источников данных, степени их неоднородности и загрязненно- сти, они могут требовать достаточно обширного преобразования и очистки. Первые шаги по очистке данных могут скорректировать проблемы отдельных источников данных и подготовить данные для интеграции. Дальнейшие шаги должны быть направлены на интеграцию данных и устранение проблем множественных источ- ников.
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy