Технологии интеллектуального анализа данных : учебное пособие
15 Самый мощный из информационных потоков – входной – связан с переносом данных из ОИД. Обычно информация не про- сто копируется в ХД, а подвергается обработке: данные очищаются и обогащаются за счет добавления новых атрибутов. Исходные данные из ОИД объединяются с информацией из внешних источ- ников – текстовых файлов, сообщений электронной почты, элек- тронных таблиц и др. При разработке ХД не менее 60 % всех затрат связано с переносом данных. Процесс переноса, включающий в себя этапы извлечения, пре- образования и загрузки, называют ETL-процессом (Е – extraction, Т – transformation, L – loading: извлечение, преобразование и загрузка, соответственно). Программные средства, обеспечивающие его вы- полнение, называются ETL-системами. Традиционно ETL-системы использовались для переноса информации из устаревших версий информационных систем в новые. В настоящее время ETL-процесс находит все большее применение для переноса данных из ОИД в ХД и ВД. 1.3. Понятие модели хранилища данных Задачи, решаемые OLTP и аналитическими системами, суще- ственно различаются, поэтому их БД тоже построены на разных принципах. Критерием эффективности для систем операционной обработки данных служит число транзакций, которое они способны выполнить в единицу времени. Для аналитических систем важнее скорость выполнения сложных запросов и прозрачность структуры хранения информации для пользователей. Важная особенность СППР на основе ХД состоит в том, что загрузка данных выполня- ется сравнительно редко, но большими порциями (до нескольких миллионов записей за один раз), поэтому в таких системах обычно не предусматриваются развитые средства обеспечения целостно-
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy