Технологии интеллектуального анализа данных : учебное пособие

101 из этих множеств было минимальным. Разные алгоритмы реализу- ют различные способы выбора. Другой проблемой при построении дерева является проблема остановки его разбиения. В дополнение к основному методу по- строения деревьев решений были предложены следующие правила:  использовать статистические методы для оценки целесооб- разности дальнейшего разбиения – так называемая ранняя останов- ка (prepruning). В конечном счете ранняя остановка процесса по- строения привлекательна в плане экономии времени обучения, но здесь уместно сделать одно важное предостережение: этот под- ход строит менее точные классификационные модели, и поэтому «ранняя остановка» крайне нежелательна;  ограничить глубину дерева. Остановить дальнейшее по- строение, если разбиение ведет к дереву с глубиной, превышающей заданное значение;  разбиение должно быть нетривиальным, т.е. получившиеся в результате узлы должны содержать не менее заданного количест- ва объектов. Этот список эвристических правил можно продолжить, но на сегодняшний день не существует такого, которое бы имело боль- шую практическую ценность. К этому вопросу следует подходить осторожно, так как многие из правил применимы в каких-то част- ных случаях. Очень часто алгоритмы построения деревьев решений дают сложные деревья, которые «переполнены данными», имеют много узлов и ветвей. В таких «ветвистых» деревьях очень трудно разо- браться. К тому же, ветвистое дерево, имеющее много узлов, раз- бивает обучающее множество на все большее количество подмно- жеств, состоящих из все меньшего количества объектов. Ценность правила, справедливого, например, для 2-3 объектов, крайне низка,

RkJQdWJsaXNoZXIy MTY0OTYy