Технологии интеллектуального анализа данных : учебное пособие

293 лей, определить оптимальную точку отсечения для отнесения объек- тов к тому или иному классу. При этом предполагается, что у клас- сификатора имеются дополнительные параметры, позволяющие уже после проведенного обучения варьировать соотношение ошибок первого и второго рода. В частности, логистическая регрессия удов- летворяет таким требованиям, так как модель на ее основе имеет вы- ходное поле рейтинга, которое можно интерпретировать как вероят- ность положительного исхода интересующего события. В основе ROC-анализа лежит построение графиков – ROC- кривых . (Receiver Operator Characteristic) – которые наиболее час- то используются для представления результатов бинарной клас- сификации в машинном обучении. Название пришло из систем обработки сигналов. Поскольку классов два, один из них называ- ется классом с положительными исходами, второй – с отрица- тельными. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. В терми- нологии ROC-анализа первые называются истинно положитель- ным, вторые – ложно отрицательным множеством. Как уже гово- рилось, у классификатора имеется некоторый параметр, варьируя который, можно получать то или иное разбиение на два класса. Этот параметр часто называют порогом или точкой отсечения (cut-off value). В зависимости от него получаются величины оши- бок I и II рода. Для понимания сути ошибок I и II рода рассмотрим таблицу сопряженности, которая строится на основе результатов классифи- кации моделью и фактической (объективной) принадлежности примеров к классам (рис. 4.27):  TP (True Positives) – верно классифицированные положи- тельные примеры (так называемые истинно положительные случаи);