Технологии интеллектуального анализа данных : учебное пособие
229 дится спектральная обработка. При этом используются алгоритмы, в которых каждое поле анализируемого набора обрабатывается независимо от остальных полей, т.е. данные обрабатываются по частям. По этой причине такая предобработка получила название парциальной. К числу процедур предобработки данных относятся сглаживание, удаление шумов, редактирование аномальных значе- ний, заполнение пропусков в рядах данных. Заполнение пропусков. Часто бывает так, что в столбце неко- торые данные отсутствуют в силу каких-либо причин (данные неизвестны либо их забыли внести и т.п.). Раньше из-за этого при- шлось бы убрать из обработки все строки, содержащие пропущен- ные данные. Чтобы этого не происходило, используют следующие способы заполнения пропущенных данных: аппроксимация – пропущенные данные восстанавливаются методом аппроксимации; максимальное правдоподобие – алгоритм подставляет наи- более вероятные значения вместо пропущенных данных. Метод аппроксимации используется только для упорядочен- ных данных, чаще всего это временные ряды. Этот метод исполь- зует последовательный рекуррентный фильтр второго порядка (фильтр Калмана). Входные данные последовательно подаются на вход фильтра, и если очередное значение ряда отсутствует, оно за- меняется значением, которое экстраполируется фильтром. Метод максимального правдоподобия рекомендуется использо- вать на неупорядоченных данных. При использовании этого метода строится плотность распределения вероятностей и отсутствующие данные заменяются значением, соответствующим ее максимуму. На рис. 4.4 представлены упорядоченные данные с пропусками. После применения алгоритма аппроксимации эти данные вы- глядят так, как показано на рис. 4.5.
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy