Технологии интеллектуального анализа данных : учебное пособие

22 1.6. Построение систем на основе хранилища данных Системы, использующие хранилище данных, как правило, строятся на основе архитектуры клиент-сервер. Хранилище данных размещается на специальном сервере (сервере хранилища данных). Для его реализации используются мощные многопроцессорные вычислительные системы таких производителей, как IBM, Hewlett- Packard, DEC, NCR и др. В качестве СУБД применяется одна из СУБД, поддерживающих параллельную обработку запросов: Teradata (фирма NCR), DB/2 (фирма IBM), Oracle, Informix и др. Киоски данных реализуются с использованием серверов многомерных БД: Essbase (Arbor Software), Oracle Express (Oracle), Gentium (Planning Sciences) и др. Современные аналитические системы, основанные на концеп- ции ХД, способны хранить большие массивы информации. В зави- симости от объема используемых данных хранилища принято де- лить: на маленькие, средние, большие и сверхбольшие. Принципы такой классификации представлены в табл. 1.1. Таблица 1.1 Классификация хранилищ данных в зависимости от объема Тип хранилища Объем данных Число строк в фактологической таблице Маленькое До 3 ГБайт До нескольких миллионов Среднее До 25 ГБайт До ста миллионов Большое До 200 ГБайт Несколько сотен миллионов Сверхбольшое Свыше 200 ГБайт Миллиард и более Приведенная классификация подразумевает полезный объем, т.е. объем данных, которые могут быть использованы для анализа. Дисковое пространство, требуемое для реализации хранилища, обычно в несколько раз больше за счет того, что необходимо под- держивать систему индексов. Для современных СУБД, таких как DB2, Teradata, Oracle, соотношение между объемом задействован-