Технологии интеллектуального анализа данных : учебное пособие

177 ков. Если эти предположения не обоснованы (не выполняются), то модель необоснованна и ее не следует использовать; 2) статистические модели необходимо проверять на работо- способность. Первичный и вторичный анализ данных. Различают два типа статистического анализа данных: 1) первичный (запланированный); 2) вторичный (незапланированный). Первичный анализ данных – это изучение закономерностей, существование которых предполагается исследователем и которые являются собственно предметом исследования. Перечень задач ис- следования должен включать описание признаков, изучение кото- рых учтено при планировании исследования. Первичный анализ данных служит обычно для проверки заранее (априори) сформули- рованных гипотез исследователя. Однако в связи с тем, что получение данных, как правило, сопряжено со значительными организационными, временными, финансовыми затратами, обычно у исследователя возникает стрем- ление сделать анализ всех данных настолько полно, чтобы можно было выявить и заранее неизвестные (и не предполагавшиеся) за- кономерности. Такой анализ данных называется «просеивание дан- ных» и обычно квалифицируется как исследовательский, поиско- вый, разведочный, вторичный . Результаты такого анализа следует интерпретировать более осторожно в связи тем, что результаты вторичного анализа в большинстве случаев не свободны от систе- матических ошибок в связи с несопоставимостью подгрупп и дру- гими факторами. Несопоставимость групп является естественным следствием того, что априори неизвестные закономерности не мог- ли быть учтены при планировании исследования. Результаты вто- ричного анализа данных не могут служить в качестве доказательств той или иной гипотезы, но обычно воспринимаются как основание для выдвижения гипотез.

RkJQdWJsaXNoZXIy MTY0OTYy