Технологии интеллектуального анализа данных : учебное пособие

94 ная имеет вещественный тип, то количество возможных значений может быть бесконечно. Для решения этой проблемы всю область значений такой переменной разбивают на интервалы таким обра- зом, чтобы каждый из них соответствовал определенному классу в обучающей выборке. В результате будет получен набор дискрет- ных значений, с которыми может работать данный алгоритм. Предположим, что данные переменной температура, приве- денные в табл. 3.1, имеют следующие числовые значения и соот- ветствующие им значения зависимой переменной: 4 5 8 9 10 11 12 12 15 15 20 21 23 25 да нет да да да нет нет да да да нет да да нет В этом случае диапазон значений можно было бы разбить на интервалы следующим образом: {до 4,5; 4,5-7,5; 7,5-10,5; 10,5-12; 12-17,5; 17,5-20,5; 20,5-24; более 24}. Более серьезная проблема рассматриваемого алгоритма – это сверхчувствительность (overfitting). Дело в том, что алгоритм будет выбирать переменные, принимающие наибольшее количество воз- можных значений, та как для них ошибка будет наименьшей. На- пример, для переменной, являющейся ключом (т.е. для каждого объекта свое уникальное значение), ошибка будет равна нулю. Од- нако для таких переменных правила будут абсолютно бесполезны, поэтому при формировании обучающей выборки для данного алго- ритма важно правильно выбрать набор независимых переменных. Необходимо отметить, что алгоритм 1R, несмотря на свою простоту, во многих случаях на практике оказывается достаточно эффективным. Это объясняется тем, что многие объекты действи- тельно можно классифицировать лишь по одному атрибуту. Кроме того, немногочисленность формируемых правил позволяет легко понять и использовать полученные результаты.