Технологии интеллектуального анализа данных : учебное пособие

161 Повторяя процесс, получим последовательные множества кластеров, состоящие из ( m – 2), ( m – З), ( m – 4) и т.д. В конце процедуры получится кластер, состоящий из т объектов и совпадающий с первоначальным множеством I . Для определения расстояния между кластерами можно вы- брать разные способы. В зависимости от этого получают алгорит- мы с различными свойствами. Существует несколько методов пересчета расстояний с ис- пользованием старых значений расстояний для объединяемых кла- стеров, отличающихся коэффициентами в формуле: d rs =  p d ps +  q d qs +  d pq +  | d ps – d qs |. Если кластеры р и q объединяются в кластер r и требуется рассчитать расстояние от нового кластера до кластера s , примене- ние того или иного метода зависит от способа определения рас- стояния между кластерами. Эти методы различаются значениями коэффициентов  p ,  q ,  и  . Дивизимные алгоритмы кластеризации. Дивизимные кла- стерные алгоритмы, в отличие от агломеративных, на первом шаге представляют все множество элементов I как единственный кла- стер. На каждом шаге алгоритма один из существующих кластеров рекурсивно делится на два дочерних. Таким образом итерационно образуются кластеры сверху вниз. Данный подход применяют, ко- гда необходимо разделить все множество объектов I на относи- тельно небольшое количество кластеров. На первом шаге все элементы помещаются в один кластер С 1 = I . Затем выбирается элемент, у которого среднее значение рас- стояния от других элементов в этом кластере наибольшее. Выбранный элемент удаляется из кластера С 1 и формирует первый член второго кластера С 2 .