Технологии интеллектуального анализа данных : учебное пособие

239 выходные. Приведение таких записей к одной, уникальной, воз- можно на основе статистической агрегации, т.е. вычисления мак- симума, минимума или среднего из выходных значений и подста- новки этой величины в соответствующее поле формируемой уни- кальной записи. Следует заметить, что такую операцию следует выполнять с осторожностью. Семантика (смысл данных) должна допускать возможность вычисления таких статистических значе- ний. Например, статистическая агрегация допустима для цены то- вара или величины пропускной способности, но бессмысленна для номеров квартир или кодов налогоплательщиков. Фильтрация С помощью операции фильтрации можно оставить в таблице только те записи, которые удовлетворяют заданным условиям, а остальные исключить из набора данных. Фильтрация может быть полезна для применения различных алгоритмов к группам данных, так как позволяет выделить из вы- борки только нужную часть. Тем не менее, если требуется провести анализ только известной части данных, желательно загружать в программу уже отфильтрованный набор. Такая возможность име- ется, например, при загрузке данных из хранилища. В этом случае значительно экономится память, занимаемая данными, и увеличи- вается скорость обработки. Например, имеется несколько групп товаров, и нужно про- вести определенный анализ для каждой группы отдельно. Тогда можно воспользоваться фильтрацией при импорте из хранилища данных, оставив в наборе данные только по одной группе, провести анализ. Затем к исходному набору снова применить фильтрацию, оставив другую группу товара, и провести анализ для нее. И так для каждой товарной группы.

RkJQdWJsaXNoZXIy MTY0OTYy