Технологии интеллектуального анализа данных : учебное пособие

228 учения, будет разной в зависимости от того, какие части генераль- ной совокупности она представляет. В условиях такой неопределенности обычно используют эв- ристические приемы для косвенной оценки достаточности об- учающей выборки. Процесс обучения делится на два этапа: пред- варительное обучение и дообучение. На первом этапе строится ре- шающее правило с использованием имеющейся обучающей выбор- ки. Затем системе предъявляется контрольная выборка данных и составляется протокол результатов распознавания. При появлении ошибки состав обучающей выборки дополняется реализацией, вы- звавшей ошибку, и решающее правило корректируется. Процедура повторяется до тех пор, пока частота появления ошибок не снизится до приемлемого уровня. 4.5. Аналитические алгоритмы очистки данных Если анализируемые данные не соответствуют определен- ным критериям качества, то их предварительная обработка стано- вится необходимым шагом для обеспечения удовлетворительного результата анализа. Необходимость в предварительной обработке возникает независимо от того, какие алгоритмы и технологии ис- пользуются. Более того, эта задача может представлять самостоя- тельную ценность в областях, не имеющих непосредственного от- ношения к анализу данных. Очевидно, исходные («сырые») данные чаще всего нуждаются в очистке. Задач, решаемых на этапе очистки данных, множество: ано- малии, пропуски, шумы и пр. Рассмотрим базовые механизмы ре- шения данных задач. Парциальная обработка В процессе парциальной обработки восстанавливаются про- пущенные данные, редактируются аномальные значения, прово-