Технологии интеллектуального анализа данных : учебное пособие
159 Базовые алгоритмы кластеризации Классификация алгоритмов. При выполнении кластеризации важно, сколько в результате должно быть построено кластеров. Предполагается, что кластеризация должна выявить естественные локальные сгущения объектов. Поэтому число кластеров является параметром, часто существенно усложняющим вид алгоритма, если предполагается неизвестным, и существенно влияющим на качест- во результата, если оно известно. Проблема выбора числа кластеров весьма нетривиальна. Дос- таточно сказать, что для получения удовлетворительного теорети- ческого решения часто требуется сделать весьма сильные предпо- ложения о свойствах некоторого заранее заданного семейства рас- пределений. Но, как правило, в начале исследования о данных практически ничего неизвестно. Поэтому алгоритмы кластеризации обычно строятся как некоторый способ перебора числа кластеров и определения его оптимального значения в процессе перебора. Число методов разбиения множества на кластеры довольно велико. Все их можно подразделить на иерархические и неиерар- хические. В неиерархических алгоритмах характер их работы и условие остановки необходимо заранее регламентировать часто довольно большим числом параметров, что иногда затруднительно, особенно на начальном этапе изучения материала. Но в таких алгоритмах достигается большая гибкость в варьировании кластеризации и обычно определяется число кластеров. С другой стороны, когда объекты характеризуются большим числом признаков (параметров), то приобретает важное значение задача группировки признаков. Исходная информация содержится в квадратной матрице связей признаков, в частности в корреляци- онной матрице. Основой успешного решения задачи группировки
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy