Технологии интеллектуального анализа данных : учебное пособие
222 Как видно, в технологии Knowledge Discovery in Databases особое место занимает начальный этап подготовки обучающей вы- борки, от которого в большей степени зависит успех обнаружения новых знаний. 4.3. Подготовка обучающей выборки Приведение данных к форме, пригодной для анализа при по- мощи конкретных методов Data Mining , является обязательным условием эффективности процесса обнаружения знаний и законо- мерностей в них. Пусть, например, стоит задача построить фильтр электрон- ной почты, не пропускающий спам. Письма представляют собой тексты в электронном виде. Практически ни один из существую- щих методов Data Mining не может работать непосредственно с текстами. Для этого необходимо из исходной текстовой информа- ции предварительно получить некие производные параметры, на- пример, частоту встречаемости ключевых слов, среднюю длину предложений, параметры, характеризующие сочетаемость тех или иных слов в предложении, и т.д. Другими словами, необходимо выработать некий четкий набор числовых или нечисловых пара- метров, характеризующих письмо, значения которых затем вой- дут в обучающую выборку. Эта задача наименее автоматизирова- на в том смысле, что выбор системы данных параметров произво- дится человеком, хотя, их значения могут вычисляться автомати- чески. Первым шагом, предваряющим подготовку обучающей вы- борки, является определение типов данных, с которыми придется работать. Это необходимо сделать для того, чтобы определить пра- вомочность использования тех или иных методов интеллектуаль- ного анализа.
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy