Технологии интеллектуального анализа данных : учебное пособие

219 кономерностей, или образов, которым подчиняются хранимые дан- ные. Для такого рода анализа применяется набор технологий, объ- единенных под общим названием Knowledge Discovery in Databases – обнаружение знаний в базах данных. Knowledge Discovery in Databases (KDD) – это процесс поис- ка полезных знаний в «сырых данных», включающий в себя вопро- сы подготовки данных, выбора информативных признаков, приме- нения различных методов Data Mining , постобработки данных, ин- терпретации полученных результатов. Рассмотрим основные этапы процесса KDD [13, 14]. 1. Выборка исходного набора данных. Данный этап основан на понимании и формулировке задачи анализа и заключается в соз- дании наборов данных, получении обучающей выборки, в том чис- ле из различных источников, на основании которой будет строить- ся решение поставленной задачи. Здесь важно также правильно сформулировать цели исследования и выбрать необходимые для их достижения методы, так как от этого зависит дальнейшая эффек- тивность всего процесса анализа. 2. Подготовка (предобработка) данных. Для эффективного применения методов Data Mining следует обратить серьезное вни- мание на вопросы предобработки данных, которые могут содер- жать пропуски, шумы, аномальные значения, обладать избыточно- стью, недостаточностью и т.д. Подавая данные на вход аналитиче- ской системы в «сыром виде», практически невозможно получить на выходе строгие правила и закономерности. Данные должны быть качественны и корректны с точки зрения используемого ме- тода Data Mining . Поэтому предобработка данных является важ- ным этапом KDD. Более того, иногда размерность исходного про- странства может быть очень большой, и тогда желательно приме- нение специальных алгоритмов понижения размерности – отбор значимых (доминантных) признаков, отображение данных в про-