Технологии интеллектуального анализа данных : учебное пособие

249 вается медиана, и из отсортированного списка выбирается средний по расположению в списке элемент. Медиана – это альтернатива среднему значению, устойчивому к аномальным выбросам. Первый и последний элемент в группе выбирается в соответствии с естест- венным порядком, в котором эти элементы следуют в исходном наборе данных. Например, необходимо построить прогноз объемов продаж. Обычно данные о продажах собираются в определенный промежу- ток времени, например, раз в день. В таком случае желательно группировать объемы продаж по неделям. Использование выборки по дневным продажам даст плохие результаты, так как продажи по каждому дню в отдельности могут очень сильно отличаться. Одна- ко объемы продаж за неделю или за месяц в среднем не так сильно зашумлены. Поэтому перед построением прогноза желательно применить две обработки: преобразование даты для приведения ее к неделе, в которую она попадает, и группировку для вычисления объемов продаж за неделю. Разгруппировка. Группировка используется для объедине- ния фактов по каким-либо измерениям. При этом под объедине- нием понимается применение некоторой функции агрегации. Ес- ли в исходном наборе данных присутствовали какие-либо другие измерения, то теряется информация о значениях фактов в разре- зе этих измерений. Алгоритм разгруппировки позволяет восста- новить эти факты, но их значения восстанавливаются не точно, а пропорционально известному вкладу в сгруппированные зна- чения. Пусть есть таблица с объемами продаж некоторого товара за два месяца (табл. 4.11) и построена модель, прогнозирующая про- дажи на два месяца вперед. Результаты прогнозирования представ- ляются в виде табл. 4.12.

RkJQdWJsaXNoZXIy MTY0OTYy