Технологии интеллектуального анализа данных : учебное пособие

72 этого случая, является периодическая таблица элементов. В 1869 г. Дмитрий Менделеев разделил 60 известных в то время элементов на кластеры или периоды. Элементы, попавшие в одну группу, об- ладали схожими характеристиками. Изучение причин, по которым элементы разбивались на явно выраженные кластеры, в значитель- ной степени определило приоритеты научных изысканий на годы вперед. Но лишь спустя 50 лет квантовая физика дала убедитель- ные объяснения периодической системы. Кластеризация отличается от классификации тем, что для проведения анализа не требуется иметь выделенную зависимую переменную. С этой точки зрения она относится к классу unsupervised learning. Эта задача решается на начальных этапах ис- следования, когда о данных мало что известно. Ее решение помога- ет лучше понять данные, и с этой точки зрения задача кластериза- ции является описательной задачей. Для задачи кластеризации характерно отсутствие каких-либо различий как между переменными, так и между объектами. Напро- тив, ищутся группы наиболее близких, похожих объектов. Методы автоматического разбиения на кластеры редко используются сами по себе, просто для получения групп схожих объектов. После оп- ределения кластеров применяются другие методы Data Mining, для того чтобы попытаться установить: что означает такое разбиение, чем оно вызвано. Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными. Отметим ряд особенностей, присущих задаче кластеризации. Во-первых, решение сильно зависит от природы объектов данных (и их атрибутов). Так, с одной стороны, это могут быть однозначно определенные, четко количественно очерченные

RkJQdWJsaXNoZXIy MTY0OTYy