Технологии интеллектуального анализа данных : учебное пособие

107 эти множества «однообъектные», то и объект относится, соответст- венно, к одному единственному классу, поэтому Infox ( T ) = 0. Значит критерий Gain ( X ) принимает свое максимальное зна- чение, и, несомненно, именно эта переменная будет выбрана алго- ритмом. Однако если рассмотреть проблему под другим углом – с точки зрения предсказательных способностей построенной модели, то становится очевидным вся бесполезность такой модели. В алгоритме С4.5 проблема решается введением нормализа- ции. Пусть суть информации сообщения, относящегося к объекту, указывает не на класс, к которому объект принадлежит, а на выход. Тогда, по аналогии с определением Info ( T ), имеем:     2 1 | | | | log | | | | m h i i i split info x T T T T     . Это выражение оценивает потенциальную информацию, по- лучаемую при разбиении множества T на m подмножеств. Рассмотрим следующее выражение:       h h h gain ratio x Gain x split info x  . Пусть это выражение является критерием выбора перемен- ной. Очевидно, что переменная, идентифицирующая объект, не будет высоко оценена критерием gain ratio . Пусть имеется k классов, тогда числитель выражения максимально будет равен log2 k и пусть п – количество объектов в обучающей выборке и од- новременно количество значений переменных. Тогда знаменатель максимально равен log2 n . Если предположить, что количество объ- ектов заведомо больше количества классов, то знаменатель растет быстрее, чем числитель, и, соответственно, значение выражения будет небольшим.