Технологии интеллектуального анализа данных : учебное пособие

152 ся результатом накопленного опыта в той или иной сфере челове- ческой деятельности и часто имеют количественное представление. Учет нечеткости самих исследуемых данных, в общем случае, – серьезная проблема. Поэтому в существующих алгоритмах не де- лается никаких допущений о нечеткости самих исходных данных. Считается, что данные являются четкими и выражены количест- венно. Постановка задачи кластеризации. Пусть дан набор данных со следующими свойствами:  каждый экземпляр данных выражается четким числовым значением;  класс для каждого конкретного экземпляра данных неиз- вестен. Требуется найти:  способ сравнения данных между собой (меру сходства);  способ кластеризации;  разбиение данных по кластерам. Формально задача кластеризации описывается следующим образом. Дано множество объектов данных I , каждый из которых представлен набором атрибутов. Требуется построить множество кластеров С и отображение F множества I на множество С , т.е. F: I  С. Отображение F задает модель данных, являющуюся ре- шением задачи. Качество решения задачи определяется количест- вом верно классифицированных объектов данных. Множество I определим следующим образом:   1 2 , ,..., ,..., j n I i i i i  , где i j – исследуемый объект. Примером такого множества может быть набор данных об ирисах, с которыми в середине 30-х годов прошлого столетия рабо-