数据仓库类型:架构与用例完全指南
数据仓库是集中式存储结构历史数据的仓库,支持复杂查询和商业智能。本文介绍三种主要类型:企业数据仓库(EDW)、数据集市和操作数据存储(ODS),以及现代云计算、混合和湖仓架构。帮助您根据需求选择合适的数据仓库。
数据仓库是一种集中式存储库,用于收集、组织和存储来自整个组织的结构化数据,以便分析师和数据科学家能够运行复杂查询、生成报告并支持商业智能工作负载。与为事务处理设计的操作数据库不同,数据仓库专为分析工作负载而构建——连接来自多个来源的数据、保存跨年度的历史数据,并提供战略决策所需的管理基础。在承诺任何平台或迁移之前,了解不同类型的数据仓库至关重要。每种类型都反映了规模、延迟、成本和主题范围之间的不同架构权衡。本指南涵盖了所有主要类型的数据仓库——从传统的企业数据仓库到现代的湖仓架构——并提供了何时选择每种类型的明确指导。
三种主要类型的数据仓库领域识别出三种核心数据仓库类型:企业数据仓库(EDW)、数据集市(Data Mart)和操作数据存储(ODS)。除此之外,组织还会根据工作负载需求、数据量和治理复杂性部署基于云的数据仓库、虚拟数据仓库、混合数据仓库和湖仓平台。
企业数据仓库(EDW)是数据仓库中最全面的类型,旨在作为整个组织的单一、权威的真实来源。EDW将来自所有主要业务单元(销售、财务、运营、人力资源、CRM和库存管理)的数据集成到一个由一致的数据质量标准和访问控制管理的数据仓库中。EDW通常采用三层架构:底层处理数据源和ETL过程,通过提取、转换和加载确保数据一致性;中间层托管OLAP服务器,支持多维分析;顶层提供仪表盘和BI应用等前端工具。这种分层设计将摄取复杂性从分析性能中分离出来,使每层可独立优化。当组织需要企业级分析、法规合规报告或跨业务单元的统一真实来源时,EDW尤为合适。传统EDW的主要挑战是可扩展性,随着数据量增长,专有表格格式和固定硬件使得本地部署成本高昂,许多组织因此迁移到云或湖仓架构以保留治理模型并消除基础设施瓶颈。
数据集市是数据仓库的主题特定子集,范围限定于单个部门、业务功能或分析领域。数据集市分为依赖型和独立型两种架构模式。依赖型数据集市从现有EDW提取数据,继承其治理和数据质量标准,是推荐做法,能防止部门间指标定义冲突。独立型数据集市直接从源系统摄取数据,构建更快但可能产生不同业务规则,导致报告不一致。数据集市非常适合销售数据分析、营销归因和财务报告等用例,其中数据域明确且受众集中。
操作数据存储(ODS)定位于事务数据库和分析型EDW之间,专为近实时报告和操作决策而设计。ODS保存当前和近期操作数据,通常每隔几分钟到几小时刷新一次,以优化反映业务当前状态的查询。ODS通过将操作数据复制到独立环境,解决了对生产数据库运行复杂报告的性能影响问题。它集成多个操作源,应用轻量级转换以标准化格式,然后提供集成数据用于报告。ODS不替代EDW,而是处理时间敏感的操作问题,如当前库存水平、当日销售业绩和活跃客户支持案例。
虚拟数据仓库不物理整合数据,而是创建一个逻辑抽象层,跨多个源系统原位查询数据。它消除了存储和ETL基础设施成本,但复杂查询性能受限,因为每个查询都必须从非分析工作负载优化的系统中检索数据。虚拟仓库最适合探索性分析、小规模报告或数据移动受监管约束的情况。
基于云的数据仓库托管在云平台上,作为完全托管服务提供。其主要优势是弹性可扩展性和快速部署:传统本地仓库需要为峰值负载配置硬件,而云仓库自动按需扩展计算和存储资源,按使用付费。云部署还能加速价值实现时间,数小时内即可配置并加载数据。但需注意数据出口费用和跨云复杂性,迁移前应评估数据流出量、开放数据格式和合规要求。
混合数据仓库结合了本地和云存储,允许组织将敏感数据保留在自有数据中心,同时利用云的可扩展性处理可变需求的分析工作负载。现代数据仓库扩展了传统模型,支持半结构化和非结构化数据,分离计算与存储以独立扩展并降低成本,集成流式数据管道以降低延迟,支持开放数据格式以避免供应商锁定,并提供机器学习和AI工作负载的原生支持。现代数据仓库还包含强大的数据沿袭能力,追踪数据从源系统经过每个转换步骤到最终消费点,这对数据治理至关重要。