Технологии интеллектуального анализа данных : учебное пособие

30 ные данные. Атрибутивные зависимости (дата рождения – возраст, общая стоимость – цена за штуку, город – региональный телефон- ный код и т.д.) могут использоваться для выявления проблем и за- мены утраченных или исправления неверных значений;  стандартизация – данная процедура преобразует данные в согласованный и унифицированный формат, что необходимо для их дальнейшего согласования и интеграции. Например, записи о дате и времени должны быть оформлены в специальном формате, имена и другие символьные данные должны конвертироваться ли- бо в прописные, либо в строчные буквы и т.д. Текстовые данные могут быть сжаты и унифицированы с помощью выявления основы (шаблона), удаления префиксов, суффиксов и вводных слов. Более того, аббревиатуры и зашифрованные схемы подлежат согласован- ной расшифровке с помощью специального словаря синонимов или применения предопределенных правил конверсии. 1.8. Метаданные Для удобства работы с ХД необходима информация о содер- жащихся в нем данных. Такая информация называется метадан- ными (данные о данных). Метаданные должны отвечать на сле- дующие вопросы – что, кто, где, как, когда и почему:  что (описание объектов) – метаданные описывают объекты предметной области, информация о которых хранится в ХД. Такое описание включает: атрибуты объектов, их возможные значения, соответствующие поля в информационных структурах ХД, источ- ники информации об объектах и т.п.;  кто (описание пользователей) – метаданные описывают ка- тегории пользователей, использующих данные, права доступа к данным, а также включают в себя сведения о пользователях, вы- полнявших над данными различные операции (ввод, редактирова- ние, загрузку, извлечение и т.п.);

RkJQdWJsaXNoZXIy MTY0OTYy