Технологии интеллектуального анализа данных : учебное пособие

271 ких областях, как медицина, геология, банковское дело, социология, маркетинг и др. Абсолютное значение веса a j можно интерпретиро- вать как степень важности признака f j , а его знак – как отношение при- знака к тому или иному классу. Это важная дополнительная инфор- мация о признаках, помогающая эксперту лучше понимать задачу. Подготовка обучающей выборки. Для построения модели ло- гистической регрессии готовится обучающая выборка так же, как и для нейронной сети. Но выходное поле может быть только дис- кретного типа и бинарное (т.е. количество уникальных значений по нему должна быть равна 2). На этапе определения входов модели необходимо помнить, что естественное стремление учесть как можно больше потенци- ально полезной информации приводит к включению избыточных шумовых признаков. Экспериментально установлено, что для ус- пешного обучения число примеров должно в несколько раз (при- мерно в 5) превосходить число входных признаков. Но даже если все признаки информативны, количества обучающих примеров может просто не хватить для надежного определения коэффициен- тов регрессии при всех признаках. Когда данных мало, приходится искусственно упрощать структуру регрессионной модели, оставляя наиболее существенные признаки. Нормализация значений полей. Для полей, подаваемых на входы, задается нормализация. Можно задать либо нормализацию битовой маской, либо нормализацию уникальными значениями (описание см. в разделе по нейросетям). Для выходного поля (зависимой переменной) необходимо оп- ределиться с тем, что является отрицательным (negative), а что по- ложительным (positive) событием. Это зависит от конкретной зада- чи. Например, если прогнозируется вероятность наличия заболева- ния, то положительным исходом будет класс «Больной пациент»,