Технологии интеллектуального анализа данных : учебное пособие

80 содержащейся на Web-узлах. Согласно таксономии Web Mining, здесь можно выделить два основных направления: Web Content Mining и Web Usage Mining. Web Content Mining подразумевает автоматический поиск и извлечение качественной информации из разнообразных источни- ков Интернета, перегруженных «информационным шумом». Здесь также идет речь о различных средствах кластеризации и аннотиро- вании документов. В этом направлении, в свою очередь, выделяют два подхода: подход, основанный на агентах, и подход, основан- ный на базах данных. Подход, основанный на агентах (Agent Based Approach), включает такие системы:  интеллектуальные поисковые агенты (Intelligent Search Agents);  фильтрация информации / классификация;  персонифицированные агенты сети. Подход, основанный на базах данных (Database Approach), включает системы:  многоуровневые базы данных;  системы web-запросов (Web Query Systems); Примеры систем web-запросов:  W3QL (Konopnicki и Shmueli, 1995),  WebLog (Lakshmanan и др., 1996),  Lorel (Quass и др., 1995),  UnQL (Buneman и др., 1995 and 1996),  TSIMMIS (Chawathe и др.., 1994). Второе направление Web Usage Mining подразумевает обна- ружение закономерностей в действиях пользователя Web-узла или их группы. Анализируется следующая информация:  какие страницы просматривал пользователь;