Технологии интеллектуального анализа данных : учебное пособие
236 Корреляционный анализ Корреляционный анализ применяется для оценки зависимо- сти выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррели- рованны (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных прак- тически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если модуль корреляции (степень взаимозависимости) между входным и вы- ходным факторами меньше порога значимости, то соответствую- щий фактор отбрасывается как незначащий. Замечание: на практике считается, что корреляция больше 0,6 означает очень высокую связь между рядами, меньше 0,3 – отсут- ствие зависимости, а промежуточные значения констатируют на- личие определенной связи. В другом подходе полагается, что зави- симость существует, если корреляцию больше 2 поделить на ко- рень из объема выборки. Обнаружение дубликатов и противоречий При построении модели регрессии или классификации в ана- лизируемых таблицах нужно определить входные и выходные по- ля, зависимости между которыми и исследуются. Предполагается, что значения входных полей полностью определяют значения вы- ходных. При подобной постановке задачи возможно возникновение противоречий, т.е. присутствие групп записей, значения в ключе- вых (входных) полях которых полностью совпадают, а в целевых (выходных) – различаются. Например, если значения в ключевых полях – это коды това- ров, а в целевых – цены этих товаров, то присутствие двух записей
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy