为AI解锁语义:梅赛德斯-奔驰韩国如何大规模构建可信的“与数据对话”
梅赛德斯-奔驰韩国在Databricks平台上构建了统一的语义层,将500多个KPI定义从Power BI迁移到Unity Catalog,利用Genie和Agent Bricks实现AI与BI的一致语义,并通过自动化DAX到指标视图的转换器加速迁移,为其他市场提供了参考。
梅赛德斯-奔驰韩国(Mercedes-Benz Korea)与Databricks合作,构建了一套名为“与数据对话”(Talk to Data)的语义层系统,旨在为AI和BI提供一致的、可信的KPI定义。该系统基于Databricks Data Intelligence平台,利用Unity Catalog、Genie和Agent Bricks等组件,实现了从传统BI报告到AI驱动自助分析的演进。
背景与愿景
作为高端豪华汽车市场的领导者,梅赛德斯-奔驰在全球拥有广泛的销售网络,数据驱动的市场特定决策至关重要。梅赛德斯-奔驰韩国已建立成熟的数据基础,包括黄金层报告数据、主KPI目录以及Databricks上Unity Catalog中的共享定义,覆盖销售、产品、营销、客户服务和财务等领域的500多个KPI。这些基础成为BI报告、自动化和其他数据产品的单一事实来源。然而,大量业务语义定义在Power BI中,为AI使用案例,需要补充一个开放的、AI就绪的语义层。
梅赛德斯-奔驰韩国的愿景是建立一个统一的、AI就绪且受治理的语义基础,支持报告、自助分析和AI体验,确保所有决策基于一致的业务定义。他们并未将“与数据对话”视为从Power BI的迁移,而是追求三个关键目标:为AI提供一致的上下文、架构向代理AI演进、以及从报告用户转向基于角色的代理。
统一架构
解决方案依赖于Databricks不同组件的协同工作:
- Lakeflow和Lakehouse:从各种源系统摄取企业数据,为BI和AI工作负载准备数据。
- Unity Catalog业务语义:作为KPI的单一事实来源,将Power BI DAX度量转换为指标视图,包括源、连接、度量、维度、注释和同义词,并与数据共存,受相同权限治理。
- Genie空间:允许业务团队与数据“对话”,按业务领域组织,每个空间由一组精选指标视图支持。由于指标视图直接定义在黄金层数据之上,Genie无需猜测或复杂连接即可得出正确答案,提高了速度和准确性。
- Agent Bricks:在多个Genie空间之上组合基于角色的代理,使CFO、销售副总裁和营销负责人各自获得为其角色定制的“与数据对话”体验。
- Databricks Apps:提供自定义前端、外部服务连接和其他扩展能力。
自动DAX到指标视图转换器
为实现Power BI DAX到Unity Catalog指标视图的高效标准化迁移,Databricks为梅赛德斯-奔驰韩国构建了一个自动转换器。该转换器作为管道运行:解析Power BI语义模型并提取每个DAX度量,创建元数据目录,将源表映射到Unity Catalog中的对应表,生成指标视图定义草案,并标记无法自动转换的度量以供人工审查。转换器最终输出评估报告,包含转换统计、差距和补救策略。这为可自动转换的DAX度量提供了即用指标视图,节省了数百小时的手动工作。
构建可信的AI就绪语义
答案质量是业务用户的首要关注点。将KPI作为指标视图接入Genie空间只是第一步,确保Genie响应与Power BI报告完全一致(100%匹配)是内部目标。在试点期间,梅赛德斯-奔驰韩国与Databricks共同记录了最佳实践,包括使用代理元数据和基准测试。
迭代五阶段流程:
- 准备:选择要接入的KPI,并将其映射到Unity Catalog中的源表。对于Power BI语义迁移,识别相关DAX度量和语义模型。
- 构建语义层:创建指标视图,包含数据源、维度、度量、注释和代理元数据。逐个验证每个KPI。对于跨多个事实表的KPI,先构建基础视图。
- 按领域组织:按业务领域(如“营销”)组织Genie空间,按子域内的KPI组组织指标视图。每个Genie空间限制为30个Unity Catalog项,并包含空间描述以便多代理系统正确路由问题。
- 增量测试:逐步接入度量,并与Power BI报告对比验证。
- 迭代优化:根据测试结果调整指标视图定义,利用Genie Code进行优化。
总结
梅赛德斯-奔驰韩国的“与数据对话”项目展示了如何通过统一的语义层赋能AI和BI,确保答案的一致性和可靠性。其经验有望成为其他梅赛德斯-奔驰市场的参考,推动自助分析在销售、产品、财务和营销团队中的普及。