Технологии интеллектуального анализа данных : учебное пособие

98 ет. Нормализованная вероятность для правила вычисляется по формуле:       | | | r r r P y c E P y c E P y c E       . В данном случае можно утверждать, что при указанных ус- ловиях игра состоится с вероятностью: P'(игра = да | Е) = 0,0053/(0,0053 + 0,0206) = 0,205 и не состоится с вероятностью: Р'(игра = нет | Е) = 0,0206/(0,0053 + 0,0206) = 0,795. Таким образом, при указанных условиях более вероятно, что игра не состоится. При использовании формулы Байеса для оценки достоверно- сти правила возникает проблема, связанная с тем, что в обучающей выборке может не быть ни одного объекта, имеющего значение h d c переменной x h и относящегося к классу c r . В этом случае соответ- ствующая вероятность будет равна 0, а следовательно, и вероят- ность такого правила равна 0. Чтобы избежать этого, к каждой ве- роятности добавляется некоторое значение, отличное от нуля. Та- кая методика называется оценочной функцией Лапласа. Одним из действительных преимуществ данного метода яв- ляется то, что пропущенные значения не создают никакой пробле- мы. При подсчете вероятности они просто пропускаются для всех правил и это не влияет на соотношение вероятностей. Числовые значения независимых переменных обычно обра- батываются с учетом того, что они имеют нормальное или гауссово распределение вероятностей. Для них определяется математиче- ское ожидание и среднеквадратичное отклонение.