Технологии интеллектуального анализа данных : учебное пособие

59 объекта с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений. При решении задачи прогнозирования результаты стадии 1 (определение тренда или колебаний) используются для предсказа- ния неизвестных (пропущенных или же будущих) значений целе- вой переменной (переменных). Продолжая рассмотренный пример стадии 1, можем сделать следующий вывод. Зная, что соискатель ищет руководящую работу и его стаж > 15 лет, на 65 % можно быть уверенным в том, что возраст соис- кателя > 35 лет. Или же, если возраст соискателя > 35 лет и же- лаемый уровень вознаграждения > 1200 условных единиц, на 90 % можно быть уверенным в том, что соискатель ищет руководящую работу. Анализ исключений (Forensic analysis) На стадии 3 Data Mining анализируются исключения или ано- малии, выявленные в найденных закономерностях. Действие, выполняемое на этой стадии, – выявление откло- нений (deviation detection), для чего необходимо определить норму, которая рассчитывается на стадии свободного поиска. Вернемся к одному из рассмотренных примеров. Найдено правило «Если возраст > 35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90 % случаев соис- катель ищет руководящую работу». Возникает вопрос – к чему от- нести оставшиеся 10 % случаев? Здесь возможны два варианта: 1) существует некоторое логи- ческое объяснение, которое также может быть оформлено в виде правила; 2) для оставшихся 10 % – это ошибки исходных данных. В этом случае стадия анализа исключений может быть использова- на в качестве очистки данных.

RkJQdWJsaXNoZXIy MTY0OTYy