Технологии интеллектуального анализа данных : учебное пособие
109 тывать только те объекты, у которых существуют значения по пе- ременной х : 2 1 ( ) , | | log , | | k r r j Info T freq c T T U freq c T T U , 1 ( ) | | | | m xh i i i Info T T T U Info T . В этом случае при подсчете , r freq c T учитываются только объекты с существующими значениями переменной х . Тогда кри- терий можно переписать: ( ) | | | | ( ) ( ) x Gain x T U T Info T Info T . Подобным образом изменяется и критерий gain ratio . Если проверка имеет п выходных значений, то критерий gain ratio счита- ется как в случае, когда исходное множество разделено на п + 1 подмножеств. Пусть теперь проверка х h с выходными значениями c h 1 , c h 2 , …, c hm выбрана на основе модифицированного критерия. Предстоит решить, что делать с пропущенными данными. Если объект из множества Т с известным выходом c hi ассоцииро- ван с подмножеством T i , вероятность того, что пример из множества T i , равна 1. Пусть тогда каждый объект из под- множества T i имеет вес, указывающий вероятность того, что объект принадлежит T i . Если объект имеет значение по перемен- ной х , тогда вес равен 1, в противном случае объект ассоцииру- ется со всеми множествами T 1 , T 2 , …, T m с соответствующими весами: 1 2 | | | | , | | | | , ..., | | | | m T T U T T U T T U .
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy