Технологии интеллектуального анализа данных : учебное пособие
95 Метод Naive Bayes. Рассмотренный ранее 1R-алгоритм фор- мирует правила для принятия решений лишь по одной переменной объекта. Однако это не всегда приемлемо. Нередко для классифи- кации необходимо рассмотреть несколько независимых перемен- ных. Такую классификацию позволяет выполнять алгоритм Naive Bayes, использующий формулу Байеса для расчета вероятности. Название naive (наивный) происходит от наивного предположения, что все рассматриваемые переменные независимы друг от друга. В действительности это не всегда так, но на практике все же дан- ный алгоритм находит применение. Вероятность того, что некоторый объект i j , относится к клас- су с r т.е. r y c , обозначим как r P y c . Событие, соответст- вующее равенству независимых переменных определенным значе- ниям, обозначим как Е , а вероятность его наступления Р ( Е ). Идея алгоритма заключается в расчете условной вероятности принад- лежности объекта к с r при равенстве его независимых переменных определенным значениям. Из теории вероятности известно, что ее можно вычислить по формуле: | | ( ) r r r P y c E P E y c P y c P E . Другими словами, формируются правила, в условных частях которых сравниваются все независимые переменные с соответст- вующими возможными значениями. В заключительной части при- сутствуют все возможные значения зависимой переменной: если 1 1 h x c и 2 2 h x c и … m m h x c тогда у = с r . Для каждого из этих правил по формуле Байеса определяется его вероятность. Предполагая, что независимые переменные при-
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy