Технологии интеллектуального анализа данных : учебное пособие

277  уровень доверия, используемый при отсечении узлов дере- ва – значение этого параметра задается в процентах и должно лежать в пределах от 0 до 100. Чем больше уровень доверия, тем более вет- вистым получается дерево, и, соответственно, чем меньше уровень доверия, тем больше узлов будет отсечено при его построении. Качество построенного дерева после обучения можно оце- нить по нескольким параметрам. Во-первых, это число распознан- ных примеров в обучающем и тестовом наборах данных. Чем выше это число, тем качественнее построенное дерево. Во-вторых, это количество узлов в дереве. При очень большом их числе дерево становится трудным для восприятия. Это также означает очень слабую зависимость выходного поля от входных полей. Каждое правило характеризуется поддержкой и достоверностью:  поддержкой – общим количеством примеров, классифици- рованных данным узлом дерева;  достоверностью – количеством правильно классифициро- ванных данным узлом примеров. Рассмотрим пример с оценкой кредитоспособности физиче- ских лиц. Очевидно, существуют некоторые правила отнесения за- емщиков к тому или иному классу. Но при достаточно большом числе выбранных характеристик вручную практически невозможно определить эти правила. Решить эту задачу позволяют деревья ре- шений. К тому же, в отличие от логистической регрессии, деревья решений способны выявить нелинейные зависимости и нетипич- ные (редкие) случаи. Постоим дерево решений (рис. 4.23). Такое дерево содержит в себе правила, следуя которым мож- но отнести заемщика в одну из групп риска и сделать вывод о вы- даче кредита. Правила читаются с узлов, расположенных правее. Например, если сумма кредита меньше 24000 и срок проживания меньше 11, тогда выдать кредит. Следует заметить, что характери- стики, лежащие ближе к вершине дерева, т.е. левее, являются более

RkJQdWJsaXNoZXIy MTY0OTYy