Технологии интеллектуального анализа данных : учебное пособие

167 составляет сущность данных алгоритмов. Отличие заключается лишь в разных способах вычисления расстояний между точками в пространстве входных данных. Алгоритмы расположены в порядке их усложнения. Так, каждый последующий алгоритм пытается учитывать все больше аспектов взаимосвязи данных. Существует некоторое количество алгоритмов, подобных описанным, единст- венное отличие которых заключается в дополнительных слагаемых целевой функции, которые учитывают некоторые другие аспекты взаимосвязи данных (взаимное расположение кластеров, допуще- ние о случайном характере распределения точек внутри кластера, учет принадлежности тому или иному кластеру ближайших сосе- дей данной точки и др.). Важно заметить, что рассмотренные алго- ритмы основаны на следующих допущениях:  кластеры в общем случае имеют форму эллипсоида;  у кластера всегда есть центр;  отнесение точек к кластерам (разбиение) базируется на не- котором расстоянии точек до центров кластера. Отсюда следуют недостатки данных алгоритмов:  допущение о том, что все кластеры всегда имеют неко- торую, определяемую алгоритмом форму, далеко не всегда вы- полняется. Аппроксимация пространства входных данных неко- торыми заданными фигурами на данных, имеющих сложное вза- имное расположение, может привести к неинтерпретируемым результатам;  допущение о том, что в кластере всегда есть некоторая уз- ловая точка (центр кластера), степень принадлежности которой кластеру равна единице, в то время как остальные точки (не равные центру кластера) не могут принадлежать кластеру с такой же высо- кой степенью принадлежности, опять же, при сложном взаимном расположении точек данных, является неприемлемым;