Технологии интеллектуального анализа данных : учебное пособие

88 Каждый объект характеризуется набором переменных: I j = { x 1 , x 2 , …, x h , …, x m , y }, где x h – независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной y . В данном примере независимыми переменными являются: наблю- дение, температура, влажность и ветер, зависимой переменной – игра. В Data Mining часто набор независимых переменных обозна- чают в виде вектора: X = { x 1 , x 2 , …, x h , …, x m }. Переменная х l может принимать значения из некоторого множества: C h = { c h 1 , c h 2 , …}. Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Напри- мер, переменная наблюдение принимает значения на множестве значений {солнце, облачность, дождь}. Если множество значений С = { c 1 , c 2 , …, c r , …, c k } перемен- ной y – конечное, то задача называется задачей классификации. Ес- ли переменная у принимает значение на множестве действитель- ных чисел R , то задача называется задачей регрессии. Для определения значений зависимой переменной использу- ются классификационные правила, деревья решений и математиче- ские функции. Правила классификации Правила классификации состоят из двух частей: условия и заключения: ЕСЛИ (условие) ТО (заключение).