Технологии интеллектуального анализа данных : учебное пособие

104 Согласно теории информации оценку среднего количества информации, необходимого для определения класса объекта из множества T , дает выражение:   2 1 , ( ) , log | | | | k r r j freq c T T Info T freq c T T                 . Поскольку используется логарифм с двоичным основанием, это выражение дает количественную оценку в битах. Для данного примера: Info( I ) = –9/14*log 2 (9/14) – 5/14*log 2 (5/14) = 0,94 бит. Ту же оценку, но только уже после разбиения множества Т по x h , дает следующее выражение:   1 ( ) | | m xh i i i Info T T T Info T    . Например, для переменной «наблюдение» оценка будет сле- дующей: Info наблюдение = (5/14)*0,971 + (4/14)*0 + + (5/14)*0,971 = 0,693 бит. Критерием для выбора атрибута будет являться следующая формула: Gain ( x h ) = Info ( T ) – lnfo xh ( T ). Этот критерий считается для всех независимых переменных. В данном примере: Gain (наблюдение) = 0,247 бит Gain (температура) = 0,029 бит Gain (влажность) = 0,152 бит Gain (ветер) = 0,048 бит

RkJQdWJsaXNoZXIy MTY0OTYy