AI News HubLIVE
公开文章 132采集文章 180可信度 86刷新频率 60 分钟
健康状态 健康来源类型 官方原文权限 官方原文最近入库 2026-06-26ID databricks-blog运行状态 已启用

Official data and AI platform feed; confirm reuse terms before full body display.

最新公开文章

Databricks如何将视频转化为可搜索、可操作的情报

Databricks提出了一种将视频视为数据工程问题的创新方法,利用视觉语言模型(VLM)、无服务器GPU和Lakeflow管道,实现对大量视频的自动分析、摘要和搜索。该方案模型无关、可扩展,适用于公共安全、基础设施检查等多个场景。

  • Databricks将视频分析作为数据工程问题处理,使用VLM、无服务器GPU和Lakeflow管道。
  • 管道可自动检测、截取和摘要关键视频片段,支持自然语言查询。
站内正文

英国学生事务办公室如何利用Databricks提升高等教育标准并改善学生成果

英国学生事务办公室(OfS)通过迁移至Databricks平台,统一管理数百万条学生记录,大幅缩短数据处理时间,加速分析流程,并支持基于AI的决策辅助,从而提升高等教育监管效率和学生成果。

  • Databricks将处理3亿条数据记录的时间从8小时缩短至几分钟。
  • 学生细分分析从两周减少到半天完成。
站内正文

为AI应用选择无服务器数据库时应关注什么

这份买家指南涵盖了评估AI工作负载无服务器数据库的关键标准,包括计算与存储分离、开放标准兼容性、按需伸缩、连接架构和AI原生能力。

  • 计算与存储分离是实现真正无服务器架构的关键。
  • 开放标准如PostgreSQL确保可移植性和避免供应商锁定。
站内正文

什么是无服务器 PostgreSQL?

无服务器 PostgreSQL 是一种完全托管的云数据库模型,将计算和存储分离,实现独立自动伸缩。它适用于突发性或不可预测的工作负载,但不太适合始终在线、对延迟敏感的应用程序。文章还介绍了基于无服务器 Postgres 的 Lakebase 架构,该架构统一了事务和分析工作负载,减少数据重复,简化了对 AI 和实时应用程序的访问。

  • 无服务器 PostgreSQL 将计算和存储解耦,按需自动伸缩,按实际使用计费。
  • 与传统 Postgres 相比,它降低了运维开销,但存在冷启动延迟和连接管理问题。
站内正文

大金应用美洲公司如何借助Genie Code大规模构建一致的数据管道

大金应用美洲公司使用Databricks Genie Code重新设计其数据工程运营模型,采用MECE技能框架和勋章架构来确保一致性。这种AI辅助方法加快了管道开发速度,同时保持了治理和与业务概念的协调。

  • 使用MECE技能和勋章架构标准化管道开发。
  • Genie Code加速迭代并减少样板代码。
站内正文

如果答案已经存在于你的数据中呢?

Kythera Labs 在 Databricks 上构建了 AI 原生的医疗战略平台,使任何医疗系统都能获得专家级智能,通过 AI 代理以自然语言回答战略问题,并提供了实际案例:路易斯安那州一家医疗系统在10天内上线,实现了患者就诊可见性提高150%、漏诊减少22%、年化价值380万美元。

  • Kythera Labs 利用 Databricks 构建 AI 代理,将医疗数据分析专家经验封装,使医疗系统领导能用自然语言提问。
  • 该平台基于3390亿医疗和处方索赔数据,重建患者就诊旅程,提供可信答案。
站内正文

Databricks连续第二年位居Gartner魔力象限执行最高和愿景最远

Databricks在2026年Gartner数据科学与机器学习AI平台魔力象限中被评为领导者,在执行能力和愿景完整性上均获最高分。这反映了企业从模型构建转向规模化部署代理应用的趋势,强调统一数据、AI和治理的重要性。

  • Databricks连续第二年位居Gartner魔力象限执行能力最高和愿景最远。
  • 企业正快速部署代理应用,需要统一数据、AI和治理平台。
站内正文

Genesis Workbench:由Databricks和NVIDIA驱动的生命科学行业AI蓝图

Genesis Workbench是一个开放的Databricks蓝图,集成了NVIDIA的加速计算工具(包括BioNeMo和Parabricks),为端到端药物发现提供安全、无代码的界面,通过Unity Catalog治理保护知识产权。

  • 模块化蓝图整合Databricks治理与NVIDIA加速计算,覆盖基因组学、单细胞、大/小分子等阶段。
  • 无代码点选界面使实验科学家无需编程即可执行复杂任务。
站内正文

智能体系统与AI智能体指南

智能体AI是一种自主软件平台,能够感知环境、推理目标、执行多步骤任务并从结果中学习,几乎无需人工干预。本文详细介绍了智能体AI与生成式AI的区别、工作原理、核心组件、编排方式以及企业治理要点。

  • 智能体AI系统自主规划并执行多步骤工作流,区别于单次响应的生成式AI。
  • 核心循环:感知-推理-行动-学习,LLM作为推理引擎,配合外部工具和记忆。
站内正文

推动公司增长的十大AI业务解决方案

获得最高AI回报的公司是将投资与具体业务成果挂钩,并基于干净、受治理的数据。本文总结了十大经过验证的AI业务解决方案及成功所需的条件。

  • AI创造价值的三种形式:生产力提升、自动化和业务重塑。
  • 数据质量占AI解决方案成功因素的75%。
站内正文

端到端RAG工作流:检索增强生成的工作原理

检索增强生成(RAG)是一种AI架构模式,通过五阶段流水线——数据摄入、嵌入、检索、增强和生成——将大语言模型与外部知识库连接,无需重新训练模型即可提供准确、领域特定的答案。生产级RAG需要选择合适的嵌入模型、配置向量数据库索引和分块策略,并实施结合语义向量搜索与关键词回退的混合搜索以最大化检索质量。RAG评估必须独立测量检索精度和生成保真度,因为强大的LLM性能无法弥补信息检索组件的薄弱,且持续数据更新对于防止知识过时至关重要。

  • RAG通过五阶段工作流连接LLM与外部知识,避免重新训练模型。
  • 混合搜索(语义+关键词)和分块策略对检索质量至关重要。
站内正文

什么是向量搜索?

向量搜索是一种基于意义和上下文而非精确关键词匹配的搜索技术。它通过嵌入向量来识别相似文本、图像、音频等内容,解决了关键词搜索的局限性,常用于RAG、企业搜索、推荐系统和异常检测。生产系统通常结合向量和关键词搜索以获得更强结果,而托管服务如Databricks AI Search可添加重排序、元数据过滤、自动索引更新和治理功能。

  • 向量搜索通过嵌入向量比较内容的意义,而非精确匹配关键词。
  • 它支持跨语言、跨格式搜索,并能处理同义词和概念关联。
站内正文

数据湖与云数据仓库:数据科学家的实用指南

本文对比了数据湖和云数据仓库的差异,指出数据湖适合存储原始多格式数据以支持机器学习和高级分析,云数据仓库则优化了结构化报表的高并发SQL性能。数据湖屋(Lakehouse)通过开放表格式(如Delta Lake)统一了两者优势,有望成为企业分析的主流架构。

  • 数据湖以低成本存储原始数据,支持所有数据类型,适合机器学习。
  • 云数据仓库提供快速SQL查询和高并发能力,但仅适用于结构化数据。
站内正文

数据科学家:推动人工智能与分析未来的核心力量

数据科学家处于分析、机器学习和人工智能的交汇点,将原始数据转化为预测模型、实验和建议,以指导业务决策。本文探讨了该角色的演变、所需核心技能、面临的挑战以及如何通过统一平台加速从探索到部署的过程。

  • 数据科学家将原始数据转化为驱动业务成果的预测模型、实验和建议。
  • 角色已扩展至大语言模型、生成式AI应用及生产级部署。
站内正文

Stagwell如何在Databricks上构建隐私安全的ID匹配

Stagwell利用Databricks Clean Rooms和Marketplace应用开发了一种隐私安全的身份匹配解决方案。品牌可以在自己的环境中安装该应用,与Stagwell的身份脊进行匹配,而无需暴露原始数据,并通过其代理定位系统激活受众。该方法将部署时间从数月缩短至数分钟,并确保了合规性。

  • 品牌在安全地将第一方数据与身份图谱匹配时面临挑战。
  • Databricks Marketplace应用支持在品牌自己的工作区即插即用部署。
站内正文

什么是人工智能(AI)?

人工智能(AI)是计算机科学的一个分支,使机器能够执行通常需要人类智能的任务。本文涵盖了AI的工作原理、主要类型、实际应用、局限性以及历史背景。

  • AI通过从数据中学习模式来做出预测或决策,而非通过明确编程。
  • 现代AI主要属于“有限记忆”类别,包括聊天机器人和推荐系统。
站内正文

AI数据工程:数据专业人士实用指南

数据工程是人工智能系统的基础。本文为数据专业人士提供了构建AI就绪数据基础设施的全面指南,涵盖数据架构、特征工程、生成式AI集成、合规性及职业发展。

  • 数据工程的焦点从传统BI转向管理大规模、非结构化和实时数据管道,以支持机器学习和生成式AI模型。
  • 自动化、可观测性和统一数据架构成为数据团队追求生产级AI解决方案的核心能力。
站内正文

数据仓库类型:架构与用例完全指南

数据仓库是集中式存储结构历史数据的仓库,支持复杂查询和商业智能。本文介绍三种主要类型:企业数据仓库(EDW)、数据集市和操作数据存储(ODS),以及现代云计算、混合和湖仓架构。帮助您根据需求选择合适的数据仓库。

  • 数据仓库分为企业数据仓库(EDW)、数据集市(Data Mart)和操作数据存储(ODS)三种类型。
  • EDW提供跨组织的单一真实来源,适合复杂治理需求,但传统架构扩展成本高。
站内正文

支付欺诈检测:银行与企业如何阻止欺诈交易

支付欺诈检测结合基于规则的系统、机器学习和实时监控来阻止未经授权的交易。了解信用卡欺诈、账户接管、卡片测试、友好欺诈和授权推送支付欺诈等主要类型,以及行为分析、设备指纹识别和实时风险评分等检测技术,还有令牌化、3D Secure 2和分层防御模型等预防策略。

  • 主要欺诈类型包括信用卡欺诈、账户接管、卡片测试、友好欺诈和授权推送支付欺诈。
  • 检测使用行为分析、设备指纹识别和实时风险评分。
站内正文

什么是AI代理框架?

AI代理框架是围绕大型语言模型(LLM)的软件基础设施,使其能够执行任务而不仅仅是响应提示。本文介绍框架的核心组件——工具、内存、沙箱和护栏,以及它们如何通过推理-行动-观察循环实现可靠操作。还讨论了八个关键构建模块,如系统提示、工具执行、反馈循环等,以及常见故障模式如上下文腐烂、工具过载和缺乏护栏。最后强调,在企业AI战略中,共享框架基础设施对于扩展和管理代理至关重要。

  • AI代理框架将模型推理转化为可靠行动,包括工具、内存、沙箱和护栏等组件。
  • 框架设计直接影响代理性能,强大的上下文管理、编排和验证与底层模型同等重要。
站内正文

Databricks与NVIDIA:共建智能体时代

Databricks和NVIDIA宣布扩大合作,推出端到端AI平台,加速模型训练、推理和智能体AI开发。新功能包括AI Runtime中的多节点训练、Free Edition GPU支持、模型服务增强,以及NVIDIA Agent Toolkit集成。客户可在Databricks内直接使用NVIDIA的行业专用AI框架,应用于医疗、生命科学、供应链、机器人等领域。

  • Databricks与NVIDIA合作提供全栈AI平台,覆盖训练、推理和智能体开发。
  • 新增AI Runtime多节点训练、Free Edition GPU支持及模型服务增强。
站内正文

合作伙伴良好架构框架:新增内容与未来展望

Databricks 合作伙伴良好架构框架 (PWAF) 提供 AI 就绪架构指南、技术标准和实施最佳实践。自2月发布以来,新增了 AI 合作伙伴开发工具包、扩展的架构模式以及开源参考应用 Firefly,帮助合作伙伴加速开发、简化集成并采用经过验证的设计模式。随着 Databricks 平台和 AI 市场的发展,PWAF 持续演进,助力合作伙伴构建差异化产品、衡量采用影响并解锁增长机会。

  • PWAF 提供基于 Databricks 的三种合作伙伴架构(内置、连接、数据协作)的 AI 就绪指南
  • 新增 AI 合作伙伴开发工具包,包含 15+ 经过测试的技能,可供编码代理使用
站内正文

Free Edition 迎来重大更新:五大新产品助力数据与AI学习

Databricks 正在扩展其 Free Edition,新增了五大产品:Genie Code、无服务器 GPU、Lakebase、Agent Bricks 和 Lakeflow Designer,为用户提供构建数据与AI项目的完整工具包。自推出以来,已有超过50万名用户使用 Free Edition,新功能覆盖数据工程、机器学习、应用开发和AI代理等核心实践领域。

  • 超过50万用户已使用Databricks Free Edition。
  • 新增五大产品:Genie Code、无服务器GPU、Lakebase、Agent Bricks和Lakeflow Designer。
站内正文

成为地球上最全面的数据与人工智能生态系统

Databricks 宣布扩展其数据与人工智能合作伙伴生态系统,推出 Marketplace 承诺支出提取、Apps 分发、OpenSharing 协议和 Genie Agent 共享等新功能,帮助合作伙伴更高效地构建、分发和商业化解决方案。

  • Databricks Marketplace 现允许合作伙伴访问客户的预承诺支出,加速交易。
  • 合作伙伴可以通过 Marketplace 分发 Databricks Apps,触及超过 20,000 家客户。
站内正文

在AI/BI中设计美观的仪表盘

本文介绍了如何在Databricks的AI/BI平台上设计美观且符合品牌形象的仪表盘,涵盖主题定制、布局组织、字体选择、UI色彩搭配和可视化调色板等最佳实践。

  • 使用仪表盘主题自定义字体、颜色和可视化调色板,确保品牌一致性。
  • 根据受众需求布局网格,采用F型或Z型扫描模式突出关键信息。
站内正文

Data + AI Summit 2026 上 Genie Code 的新功能

Genie Code 是 Databricks 上用于数据和机器学习工作的专业代理。过去一年,Genie 产品增长超过 10 倍,被 90% 的客户使用。本次峰会推出了全新的全页命令中心,用于管理多线程工作;增强了机器学习工作流程的代理能力,包括与 MLflow、模型服务和计算感知的原生集成;即将推出定时任务,实现自主工作;以及 Genie ZeroOps 将自动化扩展到生产运维。

  • 全新全页命令中心,支持多线程管理、状态跟踪和快速访问指令、技能和连接器。
  • Genie Code 为机器学习扩展了代理开发能力,利用 Genie Ontology 学习团队模式,并与 MLflow、模型服务和计算感知集成。
站内正文

Databricks 平台在 Data + AI Summit 2026 上推出的安全和合规新功能

在 Data + AI Summit 2026 上,Databricks 发布了新的安全和合规能力,包括 Entra ID 和 Okta 的自动身份管理 (AIM)、基于上下文的入口、私有网络网关、对 Lakebase 的扩展 Private Link 支持,以及新的合规认证如 HITRUST、ISMAP 和即将推出的 Azure Commercial 上的 FedRAMP High。

  • Entra ID 的 AIM 在 AWS 和 GCP 上正式可用,Okta 的 AIM 进入公开预览。
  • 基于上下文的入口为零信任访问策略提供了支持。
站内正文

借助 Unity AI Gateway 构建开放的 AI 治理生态系统

Databricks 在 Data + AI Summit 2026 上发布了 Unity AI Gateway 合作伙伴生态系统,集成了多家安全、身份和治理供应商,帮助企业在 AI 运行时实现安全监控、身份治理和风险监测。

  • Unity AI Gateway 扩展了 Unity Catalog 的治理能力,覆盖模型、代理、MCP 服务器等运行时交互。
  • 新集成的合作伙伴包括 Alice、CrowdStrike、Cyera 等,提供实时 AI 安全防护。
站内正文

AI平台新功能:ML工程智能体、深度学习平台及实时ML新能力

Databricks在2026年数据+AI峰会上宣布了AI平台的多项新功能,包括用于机器学习的Genie Code智能体、公开预览的AI Runtime(无服务器GPU训练环境),以及增强的实时ML支持(低延迟、高QPS的特征存储和模型服务)。这些功能旨在加速从实验到生产的AI应用开发。

  • Genie Code for ML:集成Databricks ML组件的编码智能体,加速特征工程、模型训练、部署和监控。
  • AI Runtime(公开预览):无服务器GPU训练平台,支持研究级深度学习和大规模微调,无需管理基础设施。
站内正文

Agentic CDP:为AI代理新时代打造的新型客户数据平台

Databricks提出了Agentic CDP概念,这是一种针对AI代理时代重新设计的客户数据平台。与传统CDP不同,它提供“黄金上下文”(Golden Context)和“无限营销活动”(Infinity Campaigns),嵌入数据基础架构,实现毫秒级实时个性化。文章认为,买家已转由AI代理进行决策,传统CDP因速度慢、缺乏上下文和无法做到真正的1:1个性化而失效。

  • 传统CDP无法满足AI代理时代对速度、个性化和上下文的需求
  • Agentic CDP引入黄金上下文(融合客户、业务和决策实时信号)
站内正文

全部来源