Технологии интеллектуального анализа данных : учебное пособие

106 стве Т равновероятна. Необходимо выбрать такую переменную, чтобы при разбиении по ней один из классов имел наибольшую вероятность появления. Это возможно в том случае, когда энтропия Info x будет иметь минимальное значение и, соответственно, крите- рий Gain ( X ) достигнет своего максимума. Рис. 3.3. Разбиение дерева на второй итерации для подмножества Т солнечно Алгоритм С4.5. Рассмотренный способ выбора переменной использует алгоритм ID3. Однако он подвержен сверхчувствитель- ности (overfitting), т.е. «предпочитает» переменные, которые имеют много значений. Например, если переменная уникально идентифи- цирует объекты, то ввиду уникальности каждого значения этой пе- ременной при разбиении множества объектов по ней получаются подмножества, содержащие только по одному объекту. Так как все Перспектива Температура Солнце Низкая Средняя Высокая Да Нет Да Да Нет Нет Влажность Ветер Высокая Нормальная Нет Да Перспектива Перспектива Солнце Солнце Да Нет Нет Нет Нет Нет Неи Да Да Да

RkJQdWJsaXNoZXIy MTY0OTYy