Технологии интеллектуального анализа данных : учебное пособие

297 Однако визуальное сравнение ROC-кривых не всегда позво- ляет выявить наиболее эффективную модель. Своеобразным мето- дом сравнения ROC-кривых является оценка площади под кривы- ми. Теоретически она изменяется от 0 до 1,0, но поскольку модель всегда характеризуется кривой, расположенной выше положитель- ной диагонали, то обычно говорят об изменениях от 0,5 («беспо- лезный» классификатор) до 1,0 («идеальная» модель). Эта оценка может быть получена непосредственно вычислением площади под многогранником, ограниченным справа и снизу осями координат и слева вверху экспериментально полученными точками. Численный показатель площади под кривой называется AUC (Area Under Curve). Вычислить его можно, например, с помощью численного метода трапеций. Если AUC > = 0,8, то можно говорить о том, что модель обладает высокой прогностической силой. Идеальная модель обладает 100 %-ной чувствительностью и специфичностью. Однако на практике добиться этого невозможно, более того, невозможно одновременно повысить и чувствитель- ность, и специфичность модели. Компромисс находится с помо- щью порога отсечения, так как пороговое значение влияет на соот- ношение Se и Sp . Можно говорить о задаче нахождения оптималь- ного порога отсечения (optimal cut-off value). Порог отсечения нужен для того, чтобы применять модель на практике: относить новые примеры к одному из двух классов. Для определения оптимального порога нужно задать критерий его оп- ределения, потому что в разных задачах присутствует своя опти- мальная стратегия. Существуют, по крайней мере, два подхода к выбору оптимального порога принятия решения: 1) требование максимальной суммарной чувствительности и специфичности модели:   _ max o k k k Cut off Se Sp   ;

RkJQdWJsaXNoZXIy MTY0OTYy