Технологии интеллектуального анализа данных : учебное пособие

60 Рассмотрим несколько известных классификаций методов Data Mining по различным признакам. Классификация технологических методов Data Mining Все методы Data Mining подразделяются на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистил- лируются для последующего использования. Непосредственное использование данных, или сохранение данных . В этом случае исходные данные хранятся в явном детали- зированном виде и непосредственно используются на стадиях про- гностического моделирования и/или анализа исключений. Пробле- ма этой группы методов – при их использовании могут возникнуть сложности анализа сверхбольших баз данных. Методы этой груп- пы: кластерный анализ, метод ближайшего соседа, метод k -ближайшего соседа, рассуждение по аналогии. Выявление и использование формализованных закономерно- стей, или дистилляция шаблонов. При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из ис- ходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining. Этот процесс выполняется на стадии свободного поиска, у первой же группы методов данная стадия в принципе отсутствует. На стадиях прогностического моделирования и анализа исключений исполь- зуются результаты стадии свободного поиска, они значительно компактнее самих баз данных. Напомним, что конструкции этих моделей могут быть трактуемыми аналитиком либо нетрактуемы- ми («черными ящиками»). Методы этой группы: логические мето-