Технологии интеллектуального анализа данных : учебное пособие

154 В данном примере значениями являются действительные числа. Задача кластеризации состоит в построении множества:   1 2 , ,..., ,..., k g C c c c c  . Здесь c k – кластер, содержащий похожие друг на друга объекты из множества I :     , | , è , k j p j p j p c i i i I i I d i i      , где  – величина, определяющая меру близости для включения объектов в один кластер;   , j p d i i – мера близости между объекта- ми, называемая расстоянием. Неотрицательное значение   , j p d i i называется расстояни- ем между элементами i j и i p , если выполняются следующие усло- вия: а)   , 0 j p d i i  , для всех i j и i p ; б)   , 0 j p d i i  тогда и только тогда, когда i j = i p ; в)     , , j p p j d i i d i i  ; г)       , , , j p j r r p d i i d i i d i i   . Если расстояние   , j p d i i меньше некоторого значения  , то говорят, что элементы близки и помещаются в один кластер. В про- тивном случае говорят, что элементы отличны друг от друга и их помещают в разные кластеры. Большинство популярных алгоритмов, решающих задачу кластеризации, используют в качестве формата входных данных матрицу отличия D. Строки и столбцы матрицы соответствуют элементам множества I. Элементами матрицы являются значения