Технологии интеллектуального анализа данных : учебное пособие
98 ет. Нормализованная вероятность для правила вычисляется по формуле: | | | r r r P y c E P y c E P y c E . В данном случае можно утверждать, что при указанных ус- ловиях игра состоится с вероятностью: P'(игра = да | Е) = 0,0053/(0,0053 + 0,0206) = 0,205 и не состоится с вероятностью: Р'(игра = нет | Е) = 0,0206/(0,0053 + 0,0206) = 0,795. Таким образом, при указанных условиях более вероятно, что игра не состоится. При использовании формулы Байеса для оценки достоверно- сти правила возникает проблема, связанная с тем, что в обучающей выборке может не быть ни одного объекта, имеющего значение h d c переменной x h и относящегося к классу c r . В этом случае соответ- ствующая вероятность будет равна 0, а следовательно, и вероят- ность такого правила равна 0. Чтобы избежать этого, к каждой ве- роятности добавляется некоторое значение, отличное от нуля. Та- кая методика называется оценочной функцией Лапласа. Одним из действительных преимуществ данного метода яв- ляется то, что пропущенные значения не создают никакой пробле- мы. При подсчете вероятности они просто пропускаются для всех правил и это не влияет на соотношение вероятностей. Числовые значения независимых переменных обычно обра- батываются с учетом того, что они имеют нормальное или гауссово распределение вероятностей. Для них определяется математиче- ское ожидание и среднеквадратичное отклонение.
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy