Технологии интеллектуального анализа данных : учебное пособие
154 В данном примере значениями являются действительные числа. Задача кластеризации состоит в построении множества: 1 2 , ,..., ,..., k g C c c c c . Здесь c k – кластер, содержащий похожие друг на друга объекты из множества I : , | , è , k j p j p j p c i i i I i I d i i , где – величина, определяющая меру близости для включения объектов в один кластер; , j p d i i – мера близости между объекта- ми, называемая расстоянием. Неотрицательное значение , j p d i i называется расстояни- ем между элементами i j и i p , если выполняются следующие усло- вия: а) , 0 j p d i i , для всех i j и i p ; б) , 0 j p d i i тогда и только тогда, когда i j = i p ; в) , , j p p j d i i d i i ; г) , , , j p j r r p d i i d i i d i i . Если расстояние , j p d i i меньше некоторого значения , то говорят, что элементы близки и помещаются в один кластер. В про- тивном случае говорят, что элементы отличны друг от друга и их помещают в разные кластеры. Большинство популярных алгоритмов, решающих задачу кластеризации, используют в качестве формата входных данных матрицу отличия D. Строки и столбцы матрицы соответствуют элементам множества I. Элементами матрицы являются значения
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy