Технологии интеллектуального анализа данных : учебное пособие

165 После того как объекты отражены в точки многомерного пространства, процедура автоматического разбиения на кластеры весьма проста. Проблема в том, что исходные объекты не всегда можно представить в виде точек. В геометрии все переменные рав- нозначны, в реальных же данных изменение одной из них на неко- торое значение по смыслу может значить существенно больше, чем такое же изменение другой переменной. Действительные перемен- ные можно преобразовать к примерно равнозначному масштабу, разделив на их характерный естественный масштаб или, если он неизвестен, на среднее значение этой переменной, на диапазон ее изменения (разность между максимальным и минимальным значе- ниями переменной), или на ее стандартное отклонение. Тогда гео- метрическое расстояние между точками будет примерно соответст- вовать интуитивным представлениям о близости записей. Введение метрики, расстояния между категориальными переменными или отношениями порядка несколько сложнее. Необходимо отметить, что метод k -средних хорошо работает, если данные по своей естественной природе делятся на компакт- ные, примерно сферические группы. Данный алгоритм является прообразом практически всех ал- горитмов нечеткой кластеризации, и его рассмотрение поможет лучшему пониманию принципов, заложенных в более сложные ал- горитмы. Основной недостаток, присущий данному алгоритму в силу дискретного характера элементов матрицы разбиения, – большой размер пространства разбиения. Одним из способов устранения данного недостатка является представление элементов матрицы разбиения числами из единичного интервала, т.е. принадлежность элемента данных кластеру должна определяться функцией принад- лежности – элемент данных может принадлежать нескольким кла-