Технологии интеллектуального анализа данных : учебное пособие

105 Выбирается переменная с максимальным значением Gain (). Она и будет являться проверкой в текущем узле дерева, а затем по ней производится дальнейшее построение дерева, т.е. в узле будет проверяться значение по этой переменной и дальнейшее движение по дереву будет производиться в зависимости от полученного отве- та. Таким образом, для случая с определением игры будет выбрана переменная «наблюдение». Такие же рассуждения можно применить к полученным под- множествам T 1 , T 2 , …, T m и продолжить рекурсивно процесс по- строения дерева до тех пор, пока в узле не окажутся объекты из одного класса. Так, для множества, полученного при значении «солнечно» переменной «наблюдение», для остальных трех переменных будут следующие значения: Gain (температура) = 0,571 бит Gain (влажность) = 0,971 бит Gain (ветер) = 0,020 бит Таким образом, следующей переменной, по которой будет разбиваться подмножество T солнечно , окажется «влажность». Постро- енное дерево будет выглядеть так, как изображено на рис. 3.3. Заметим, что если в процессе работы алгоритма получен узел, ассоциированный с пустым множеством (ни один объект не попал в данный узел), то он помечается как лист и в качестве решения листа выбирается наиболее часто встречающийся класс у непосредственного предка данного листа. Поясним, почему критерий Gein ( X ) должен максимизиро- ваться. Из свойств энтропии известно, что максимально возможное значение энтропии достигается в том случае, когда все сообщения множества равновероятны. В данном случае энтропия Info x дости- гает своего максимума, когда частота появления классов в множе-