Технологии интеллектуального анализа данных : учебное пособие

86 Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с извест- ными результатами строится модель. На втором этапе она исполь- зуется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные мо- дели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий. По способам решения задачи разделяют на supervised learning (обучение с учителем) и unsupervised learning (обучение без учителя). Такое название произошло от термина Machine Learning (машинное обучение), часто используемого в англоязыч- ной литературе и обозначающего все технологии Data Mining . В случае supervised learning задача анализа данных решается в несколько этапов. Сначала с помощью какого-либо алгоритма Data Mining строится модель анализируемых данных – классифи- катор. Затем классификатор подвергается обучению. Другими сло- вами, проверяется качество его работы и, если оно неудовлетвори- тельно, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый уро- вень качества или не станет ясно, что выбранный алгоритм не ра- ботает корректно с данными, либо же сами данные не имеют структуры, которую можно выявить. К этому типу задач относят задачи классификации и регрессии. Unsupervised learning объединяет задачи, выявляющие описа- тельные модели, например закономерности в покупках, совершае- мых клиентами большого магазина. Очевидно, что если эти зако- номерности есть, то модель должна их представить и неуместно говорить об ее обучении. Отсюда и название – unsupervised