Технологии интеллектуального анализа данных : учебное пособие

108 Несмотря на улучшение критерия выбора атрибута для раз- биения, алгоритм может создавать узлы и листья, содержащие не- значительное количество примеров. Чтобы избежать этого, следует воспользоваться еще одним эвристическим правилом: при разбие- нии множества T по крайней мере два подмножества должны иметь не меньше заданного минимального количества объектов k ( k > 1). Обычно оно равно двум. В случае невыполнения данного правила дальнейшее разбиение этого множества прекращается и соответст- вующий узел отмечается как лист. При таком ограничении воз- можна ситуация, когда объекты, ассоциированные с узлом, отно- сятся к разным классам. В качестве решения листа выбирается класс, который наиболее часто встречается в узле, если же приме- ров равное количество из всех классов, то решение дает класс, наи- более часто встречающийся у непосредственного предка данного листа. Рассматриваемый алгоритм построения деревьев решений предполагает, что для переменной, выбираемой в качестве провер- ки, существуют все значения, хотя явно это нигде не утверждалось, т.е. для любого примера из обучающей выборки существует значе- ние по этой переменной. Первое решение, которое лежит на поверхности, – не учиты- вать объекты с пропущенными значениями. Следует подчеркнуть, что крайне нежелательно отбрасывать весь объект только потому, что по одной из переменных пропущено значение, поскольку мож- но потерять много полезной информации. Тогда необходимо выработать процедуру работы с пропу- щенными данными. Пусть Т – обучающая выборка и X – проверка по некоторой переменной х . Обозначим через U количество неопределенных зна- чений переменной х . Изменим формулы таким образом, чтобы учи-