Технологии интеллектуального анализа данных : учебное пособие
152 ся результатом накопленного опыта в той или иной сфере челове- ческой деятельности и часто имеют количественное представление. Учет нечеткости самих исследуемых данных, в общем случае, – серьезная проблема. Поэтому в существующих алгоритмах не де- лается никаких допущений о нечеткости самих исходных данных. Считается, что данные являются четкими и выражены количест- венно. Постановка задачи кластеризации. Пусть дан набор данных со следующими свойствами: каждый экземпляр данных выражается четким числовым значением; класс для каждого конкретного экземпляра данных неиз- вестен. Требуется найти: способ сравнения данных между собой (меру сходства); способ кластеризации; разбиение данных по кластерам. Формально задача кластеризации описывается следующим образом. Дано множество объектов данных I , каждый из которых представлен набором атрибутов. Требуется построить множество кластеров С и отображение F множества I на множество С , т.е. F: I С. Отображение F задает модель данных, являющуюся ре- шением задачи. Качество решения задачи определяется количест- вом верно классифицированных объектов данных. Множество I определим следующим образом: 1 2 , ,..., ,..., j n I i i i i , где i j – исследуемый объект. Примером такого множества может быть набор данных об ирисах, с которыми в середине 30-х годов прошлого столетия рабо-
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy