Технологии интеллектуального анализа данных : учебное пособие

160 является неформальная гипотеза о небольшом числе скрытых фак- торов, которые определяют структуру взаимных связей между при- знаками. В иерархических алгоритмах фактически отказываются от определения числа кластеров, строя полное дерево вложенных кла- стеров (дендрограмму). Число кластеров определяется из предпо- ложений, в принципе, не относящихся к работе алгоритмов, напри- мер, по динамике изменения порога расщепления (слияния) кла- стеров. Трудности таких алгоритмов хорошо изучены: выбор мер близости кластеров, проблема инверсий индексации в дендрограм- мах, негибкость иерархических классификаций, которая иногда весьма нежелательна. Тем не менее, представление кластеризации в виде дендрограммы позволяет получить наиболее полное пред- ставление о структуре кластеров. Иерархические алгоритмы связаны с построением дендро- грамм и делятся: а) на агломеративные, характеризуемые последовательным объединением исходных элементов и соответствующим уменьше- нием числа кластеров (построение кластеров снизу вверх); б) дивизимные (делимые), в которых число кластеров возрас- тает, начиная с одного, в результате чего образуется последователь- ность расщепляющих групп (построение кластеров сверху вниз). Агломеративные алгоритмы кластеризации. На первом шаге множество I представляется как множество кластеров:       1 1 2 2 , ,..., m m c i c i c i    . На следующем шаге выбираются два наиболее близких друг к другу (например, с р и c q ) и объединяются в один общий кластер. Новое множество, состоящее уже из т – 1 кластеров, будет:         1 1 2 2 , ,...,c , ,..., p p q m m c i c i i i c i     .

RkJQdWJsaXNoZXIy MTY0OTYy