Технологии интеллектуального анализа данных : учебное пособие
149 которая пригодится при извлечении правил. Эти же действия приме- няются для нахождения ( k + 1)-элементных наборов и т.д. 3.4. Методы и алгоритмы решения задачи кластеризации Кластеризация отличается от классификации тем, что для проведения анализа не требуется иметь выделенную целевую пе- ременную, с этой точки зрения она относится к классу unsupervised learning. Эта задача решается на начальных этапах исследования, когда о данных мало что известно. Ее решение помогает лучше по- нять данные, и с этой точки зрения задача кластеризации является описательной (descriptive). Для этапа кластеризации характерно отсутствие каких-либо различий как между переменными, так и между записями. Напро- тив, ищутся группы наиболее близких, похожих записей. Методы автоматического разбиения на кластеры для получения групп схо- жих объектов и редко сами по себе. Анализ только начинается с разбиения на кластеры. Чтобы попытаться установить: что такое разбиение на кластеры, чем оно вызвано, после определения кла- стеров употребляются другие методы Data Mining. Большое достоинство кластерного анализа в том, что он по- зволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ, в от- личие от большинства математико-статистических методов, не на- кладывает никаких ограничений на вид рассматриваемых объектов и позволяет рассматривать множество исходных данных практиче- ски произвольной природы. Это имеет большое значение, напри- мер, для прогнозирования конъюнктуры при наличии разнородных показателей, затрудняющих применение традиционных экономет- рических подходов.
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy