Технологии интеллектуального анализа данных : учебное пособие
66 а зависимые переменными в этих же примерах: кредитоспособность клиента (возможные значения этой переменной «да» и «нет»); тип сообщения (возможные значения этой переменной «spam» и «mail»); цифра образа (возможные значения этой переменной 0, 1,..., 9). Необходимо обратить внимание, что во всех рассмотренных примерах независимая переменная принимала значение из конеч- ного множества значений: {да, нет}, {spam, mail}, {0, 1,..., 9}. Если значениями независимых и зависимой переменных являются дей- ствительные числа, то задача называется задачей регрессии, при- мером которой может служить задача определения суммы кредита, выданная банком клиенту. Задача классификации и регрессии решается в два этапа. На первом этапе выделяется обучающая выборка. В нее входят объек- ты, для которых известны значения как независимых, так и зависи- мых переменных. В описанных ранее примерах такими обучающи- ми выборками могут быть: информация о клиентах, которым ранее выдавались креди- ты на разные суммы, и информация об их погашении; сообщения, классифицированные вручную как спам или как письмо; распознанные ранее матрицы образов цифр. На основании обучающей выборки строится модель опреде- ления значения зависимой переменной. Ее часто называют функ- цией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования: количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем точнее будет
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy