Технологии интеллектуального анализа данных : учебное пособие

226 Полученная таблица пока еще является слишком сырым ма- териалом для применения методов интеллектуального анализа, по- этому данные, входящие в нее, необходимо предварительно обра- ботать. Во-первых, таблица может содержать параметры, имеющие одинаковые значения для всего столбца. Если бы исследуемые объ- екты характеризовались только такими признаками, они были бы абсолютно идентичны, а значит, эти признаки никак не индивидуа- лизируют исследуемые объекты. Следовательно, их надо исклю- чить из анализа. Во-вторых, таблица может содержать некоторый категори- альный признак, значения которого во всех записях различны. Яс- но, что это поле нельзя использовать для анализа данных и его надо исключить. Параллельно с очисткой данных по столбцам таблицы (при- знакам) бывает также необходимо провести предварительную очи- стку данных по строкам таблицы (записям). Любая реальная база данных обычно содержит ошибки, очень неточно определенные значения, соответствующие каким-то редким, исключительным ситуациям, и другие дефекты, которые могут резко понизить эф- фективность методов Data Mining , применяемых на следующих этапах анализа. Такие записи необходимо отбросить, поскольку даже если подобные «выбросы» не являются ошибками, а пред- ставляют собой редкие исключительные ситуации, они все равно вряд ли могут быть использованы, поскольку по нескольким точ- кам статистически значимо невозможно судить об искомой зави- симости в данных. Предварительная обработка данных составляет этап подго- товки обучающей выборки для последующего использования ме- тодов интеллектуального анализа при получении нового знания.