Технологии интеллектуального анализа данных : учебное пособие

23 ной дисковой памяти и объемом реально используемых данных примерно равно 5-10. 1.7. Доставка данных в хранилище Данные должны поступать в хранилище в нужном формате и с требуемой регулярностью. Как правило, составляется расписание пополнения хранилища, в соответствии с которым специальные программы организуют передачу данных на склад и их первичную обработку. Передача данных на склад может также осуществляться при возникновении заранее определенных внешних событий. Первым этапом после сбора данных необходимо выполнить их преобразование для размещения на новом месте. На этом этапе выполняются следующие процедуры:  обобщение данных (aggregation) – перед загрузкой данные обобщаются. Процедура обобщения заменяет многочисленные де- тальные данные относительно небольшим числом агрегированных данных, например предположим, что данные о продажах за год за- нимают в нормализованной базе данных несколько тысяч записей. После обобщения данные преобразуются в меньшее число кратких записей, которые будут перенесены в ХД;  перевод значений (value translation) – в ОИД данные часто хранятся в закодированном виде для того, чтобы сократить избы- точность данных и память для их хранения. Например, названия товаров, городов, специальностей и т.п. могут храниться в сокра- щенном виде. Поскольку ХД содержат обобщенную информацию и рассчитаны на простое использование, закодированные данные обычно заменяют на более понятные описания;  создание полей (field derivation) – при создании полей для конечных пользователей создается и новая информация. Например, ОИД содержит одно поле для указания количества проданных това- ров, а второе – для указания цены одного экземпляра. Для исключе-

RkJQdWJsaXNoZXIy MTY0OTYy