大金应用美洲公司如何借助Genie Code大规模构建一致的数据管道
大金应用美洲公司使用Databricks Genie Code重新设计其数据工程运营模型,采用MECE技能框架和勋章架构来确保一致性。这种AI辅助方法加快了管道开发速度,同时保持了治理和与业务概念的协调。
大金应用美洲公司(Daikin Applied Americas,简称DAA)是北美商用暖通空调系统的领先制造商和服务商,管理着来自设备遥测、供应链和现场服务记录等海量运营、制造和服务数据。随着企业分析和人工智能用例的不断增加,数据团队面临着前所未有的压力。为了应对这一挑战,DAA团队彻底重新定义了数据管道的设计、构建和治理方式,并利用Databricks的Genie Code来加速执行。
团队首先引入了一个MECE(相互独立,完全穷尽)技能框架。每个技能定义了数据工程生命周期中的一个特定能力,包括勋章架构设计、源就绪性、转换模式、规范对齐和治理标准。这些技能相互独立且覆盖了完整的工作流程。与早期依赖长提示的做法不同,团队将环境结构化,使得Genie Code在运行时加载适当的技能,并在规划和执行过程中应用它们。这从根本上改变了行为模式:从解读临时指令转变为在定义好的执行模型内操作。
同时,团队强化了勋章架构(Bronze、Silver、Gold)的作用,将其作为明确的决策边界,而不仅仅是存储层。Bronze层代表原始数据,Silver层是清洗和规范化后的数据,Gold层则是业务就绪的分析数据。为了将这一结构付诸实践,团队在层之间引入了检查点,例如源粒度定义、连接验证和数据稳定性检查。这些检查点直接嵌入开发工作流中,而不是作为下游审查步骤,从而确保团队间的一致性,并减少快速开发期间出现架构捷径的风险。
为了弥合技术模型与业务语言之间的差距,团队将管道设计锚定在稳定的业务实体上,如设备、客户、服务事件和合同,而不是技术表结构。工程师首先识别数据代表什么以及它如何随时间变化,这提高了下游工作的效率,并减少了数据集跨域复用时的歧义。
实施新运营模型后,团队看到了显著变化:管道开发加速,特别是在早期探索和迭代阶段;团队间输出更加一致;对AI生成内容的信任度提高。关键决策被标准化,包括Bronze、Silver、Gold数据的定义、源粒度的定义、可复用的转换模式以及业务实体的表示方式。这确保了AI在一致的框架内运行,即使用例不断演变。
DAA数据与分析高级总监Trent Lezer表示:“Genie Code最好被当作一个工作速度很快,但必须像其他人一样遵守相同架构约束的初级工程师来对待,没有‘因为是AI’的特殊豁免。”他强调,目标不是让AI遵守更多规则,而是让正确的规则无法忽视。
最终,这种结构化运营模型与AI辅助开发的结合,使得DAA数据团队能够在保持一致性、清晰度和控制力的同时,更快地实现规模化。团队创建了一个速度和治理相互促进的系统,而不是相互竞争。