Технологии интеллектуального анализа данных : учебное пособие

169 тинно случайную выборку из генеральной совокупности бывает практически невозможно. Это может быть связано с тем, что объ- екты исследования (например, больные) проживают на разных кон- тинентах. Поэтому обычно исследователю следует стремиться к тому, чтобы выборка была репрезентативной по отношению к изу- чаемой популяции, т.е. достаточно адекватно отражающей все воз- можные аспекты изучаемых процессов в популяции Для достиже- ния этой цели необходимо четко сформулировать и в дальнейшем строго соблюдать критерии включения и исключения, а также из- бегать тенденциозности в решении вопроса о включении либо не включении того или иного объекта в исследование. Обычно популяционное значение параметра (среднее значе- ние, медиану, долю и т.д.) узнать невозможно (исключение со- ставляют случаи, когда исследование проводится на группе, кото- рая включает всех членов популяции). Однако популяционное значение параметра можно оценить по выборке. Точность такой оценки зависит от метода измерения (ошибки измерения), объема и репрезентативности выборки (ошибки выборки) и других харак- теристик. Описание распределения признака в выборке проводится пу- тем оценки значений ее параметров, характеризующих централь- ную тенденцию и рассеяние наблюдений (объектов исследования) по области значений признака. Распределение признака в выборке – совокупность частот на- блюдений (объектов исследования) для каждого интервала значе- ний признака в конкретной выборке. Распределение признака в генеральной совокупности ( попу- ляции ) – совокупность частот наблюдений (объектов исследования) для каждого интервала значений признака в генеральной совокуп- ности.