Технологии интеллектуального анализа данных : учебное пособие

270 множественная регрессия просто игнорирует ограничения на диа- пазон значений для y . Для решения данной проблемы задача регрессии может быть сформулирована иначе: вместо предсказания бинарной переменной предсказываем непрерывную переменную со значениями на отрез- ке [0,1] при любых значениях независимых переменных. Это до- стигается применением преобразования вида: Р = 1/(1 + е -y ), где Р – вероятность того, что произойдет интересующее событие; е – основание натуральных логарифмов 2,71...; у – стандартное уравнение регрессии у = a + b 1 X 1 + b 2 x 2 +...+ b n x n . Существует несколько способов нахождения коэффициентов логистической регрессии. На практике часто используют метод максимального правдоподобия. Он применяется в статистике для получения оценок параметров генеральной совокупности по дан- ным выборки. Основу метода составляет функция правдоподобия (likehood function), выражающая плотность вероятности (вероят- ность) совместного появления результатов выборки. Для поиска максимума, как правило, используется оптимизационный метод Ньютона, для которого здесь всегда выполняется условие сходимо- сти. Для облегчения вычислительных процедур максимизируют не саму функцию правдоподобия, а ее логарифм. В результатах обычно выводят численное значение (-2*Log likehood) либо на ка- ждом шаге алгоритма, либо на последнем шаге. Бинарная логистическая регрессия эквивалента построению рейтинговой или балльной модели, так как если признак f j наблюда- ется у объекта х , то к сумме баллов добавляется вес a j . Классифика- ция производится путем сравнения набранной суммы баллов с поро- говым значением . Благодаря свой простоте подсчет баллов или ско- ринг (scoring) пользуется большой популярностью у экспертов в та-