Технологии интеллектуального анализа данных : учебное пособие

65 но, что такое решение принимается на основании данных об иссле- дуемом объекте (в данном случае – человеке): его месте работы, размере заработной платы, возрасте, составе семьи и т. п. В резуль- тате анализа этой информации банковский служащий должен отне- сти человека к одному из двух известных классов «кредитоспосо- бен» и «некредитоспособен». Другим примером задачи классификации является фильтра- ция электронной почты. В этом случае программа фильтрации должна классифицировать входящее сообщение как спам (нежела- тельная электронная почта) или как письмо. Данное решение при- нимается на основании частоты появления в сообщении опреде- ленных слов (например, имени получателя, безличного обращения, слов и словосочетаний: «приобрести», «заработать», «выгодное предложение» и т.п.). В общем случае количество классов в задачах классификации может быть более двух. Например, в задаче распознавания образа цифр таких классов может быть 10 (по количеству цифр в десятич- ной системе счисления). В такой задаче объектом классификации является матрица пикселов, представляющая образ распознаваемой цифры. При этом цвет каждого пиксела является характеристикой анализируемого объекта. В Data Mining задачу классификации рассматривают как за- дачу определения значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении, – независимыми переменными. В рассмотренных примерах независимые переменные:  зарплата, возраст, количество детей и т.д.;  частота определенных слов;  значения цвета пикселов матрицы,