Технологии интеллектуального анализа данных : учебное пособие

66 а зависимые переменными в этих же примерах:  кредитоспособность клиента (возможные значения этой переменной «да» и «нет»);  тип сообщения (возможные значения этой переменной «spam» и «mail»);  цифра образа (возможные значения этой переменной 0, 1,..., 9). Необходимо обратить внимание, что во всех рассмотренных примерах независимая переменная принимала значение из конеч- ного множества значений: {да, нет}, {spam, mail}, {0, 1,..., 9}. Если значениями независимых и зависимой переменных являются дей- ствительные числа, то задача называется задачей регрессии, при- мером которой может служить задача определения суммы кредита, выданная банком клиенту. Задача классификации и регрессии решается в два этапа. На первом этапе выделяется обучающая выборка. В нее входят объек- ты, для которых известны значения как независимых, так и зависи- мых переменных. В описанных ранее примерах такими обучающи- ми выборками могут быть:  информация о клиентах, которым ранее выдавались креди- ты на разные суммы, и информация об их погашении;  сообщения, классифицированные вручную как спам или как письмо;  распознанные ранее матрицы образов цифр. На основании обучающей выборки строится модель опреде- ления значения зависимой переменной. Ее часто называют функ- цией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования:  количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем точнее будет