Технологии интеллектуального анализа данных : учебное пособие

68 Как видно из рис. 2.8, есть несколько возможностей для по- строения обводящей области. Вид функции зависит от применяе- мого алгоритма. Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, – это неудовлетворительное ка- чество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, различные типы атрибутов – числовые и категорические, разная значимость атрибутов, а также так называемые проблемы overfitting и underfitting. Суть первой из них заключается в том, что классификационная функция при по- строении «слишком хорошо» адаптируется к данным и встречаю- щиеся в них ошибки и аномальные значения пытается интерпрети- ровать как часть внутренней структуры данных. Очевидно, что та- кая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет несколько иной. Термином underfitting обозначают ситуацию, когда слишком велико количе- ство ошибок при проверке классификатора на обучающем множе- стве. Это означает, что особых закономерностей в данных не было обнаружено и либо их нет вообще, либо необходимо выбрать иной метод их обнаружения. Задача поиска ассоциативных правил Поиск ассоциативных правил является одним из самых попу- лярных приложений Data Mining. Суть задачи заключается в опре- делении часто встречающихся наборов объектов в большом мно- жестве таких наборов. Данная задача является частным случаем задачи классификации. Первоначально она решалась при анализе тенденций в поведении покупателей в супермаркетах. Анализу подвергались данные о совершаемых ими покупках, которые поку- патели складывают в тележку (корзину). Это послужило причиной второго часто встречающегося названия – анализ рыночных корзин