Технологии интеллектуального анализа данных : учебное пособие

227 4.4. Репрезентативность обучающей выборки Вопрос репрезентативности (отражения зависимости в гене- ральной совокупности) статистических выборок всегда был и оста- ется слабым звеном методов интеллектуального анализа данных. Одно из определений представительности выборки гласит [16]: «Представительной считается такая обучающая выборка A , которая в заданном пространстве признаков и заданном классе решающих функций позволяет построить правило распознавания новых объ- ектов (контрольной выборки Q ) с ошибкой, не превышающей за- данной величины». Однако обучение производится на имеющемся материале, а проверка качества обучения будет делаться на материале, которого в процессе обучения нет и о котором нет никакой предварительной информации. Поэтому невозможно проверить качество распозна- вания новых объектов. В реальности контрольную выборку данных получают из обучающей выборки путем случайного деления ее на две части. Как правило, на первой части большего размера производится обу- чение, а на второй – проверка качества построенной модели. В этом случае становится возможным оценить степень репрезента- тивности обучающей выборки. В то же время считается, что чем больше объем обучающей выборки, тем более вероятно, что данная выборка является пред- ставительной. Однако при проведении медицинских исследований, например, часто не удается получить выборку большого объема и приходится проводить анализ на малых выборках. При объеме ста- тистических выборок меньше 20 доверять результатам анализа не рекомендуют [7]. При одном и том же объеме обучающей выборки ее предста- вительность как свойство, обеспечивающее хорошее качество об-