Box AI如何借助Deep Agents构建企业内容代理
Box AI基于Deep Agents构建了Box Agent,支持跨企业内容库搜索、分析和综合,同时保留安全性和权限模型。采用父/子代理架构,动态生成子代理处理复杂任务,并通过中间件实现引用生成、缓存和上下文管理。
Box是智能内容管理平台,受超过10万家企业信赖,用于存储、保护和治理非结构化数据。Box AI中的Box Agent基于Deep Agents构建,可以搜索企业内容库,综合数千份文档的发现,并生成报告和分析,同时遵守Box现有的安全和权限模型。
从单文件问答到企业级分析 Box Agent的第一个版本允许用户在单个文档内提问。随后,团队引入了Knowledge Hubs(基于RAG的层),允许用户跨定义的知识源进行查询。Box首席AI架构师Sesh Jalagam解释说:“当我们开始使用代理时,我们想解决搜索问题。企业搜索具有挑战性,因为存在重复信息、过时信息以及看似相同但每个企业都有自己的术语体系的内容。”尽管这些功能很有价值,但用户开始跨不同领域提出越来越复杂的问题。一家生物科学公司的研究人员可能要求Box AI在开始新研究前综合现有研究;法律团队可能要求提取过去十年中超过特定价值的所有合同,并对照风险标准进行评估。为了提供更丰富的AI原生体验,Box需要超越标准问答的代理架构。
选择Deep Agents的原因:控制、模型灵活性和速度 Box在构建代理平台时评估了多个框架,两个要求决定了选择:完全模型无关性和迭代速度。Box为客户提供多种LLM提供商选择(从OpenAI、Anthropic到Google等),这种灵活性必须在平台层面保留。为了向10万多家企业客户推出并改进Box Agent,Box团队需要将工程时间集中在企业特定问题上,而不是重建核心代理基础设施。Deep Agents满足了这两个要求:模型抽象层处理提供商无关的路由,开放的代理框架实现了3倍的迭代速度。Jalagam说:“我们希望在构建前瞻性框架的同时完全控制所有组件。”
Deep Agent架构:父代理生成子代理 Box Agent的架构采用父/子模型,其中父代理和所有子代理都是Deep Agents。父代理(称为全局代理)接收请求,分类意图,并决定是直接处理还是生成子代理来分配工作。子代理作为工具暴露给父代理,使得无论是执行关键字搜索还是委托给新生成的子代理,调用表面保持一致。这种设计是有意从早期架构演变而来的,早期架构有硬编码的专用子代理(专用搜索代理、QA代理和组合代理),这造成了不必要的延迟。Box AI工程负责人Shubhro Roy说:“如果问题非常简单或搜索非常简单,父节点可以直接处理,甚至不需要制定计划。”对于复杂任务,行为完全不同。例如,如果要求提取过去10年中超过阈值的所有合同并对照风险标准评估,全局代理会制定计划,然后展开:一个子代理搜索相关文档,另一个并行检索标准,第三个在前两个完成后综合并分析结果。所有代理(数量取决于任务需求)在隔离的上下文窗口中运行,通过中间件层报告。由于子代理是动态生成的,而不是预定义的,系统可以处理Box产品团队尚未明确设计的任务。全局代理在运行时决定创建哪些子代理以及赋予它们哪些工具。父代理和子代理都可以访问相同的完整工具注册表,包括BM25关键词搜索、向量搜索、电子表格结构化问答、文件操作等。Box发现,随着用例的扩展,模型在决定使用哪些工具方面比任何静态路由逻辑更有效。
中间件:引用、缓存和上下文管理 Box使用Deep Agents中间件拦截模型和工具调用。中间件允许您使用护栏、审批、动态上下文和其他特定于应用程序的行为自定义代理循环。Box Agent的三个功能包括:引用生成、提示缓存和上下文管理。对于复杂的多文档答案,引用在响应流式传输期间作为并行过程运行。当流式答案完成时,引用已准备好附加。基于嵌入的匹配处理来源归属,并内置逻辑确保引用在多个来源之间适当分布。Roy解释说:“作为中间件执行的好处是,答案的流式传输和引用生成并行发生,从而不会中断用户。”中间件在多轮对话中注入缓存,随着对话历史的积累降低成本和延迟。当对话历史超过17万个令牌时,中间件自动总结历史,防止上下文溢出,而无需更改代理逻辑。中间件还充当父代理和子代理之间的通信渠道。完成搜索的子代理通过中间件写入结果;父代理和其他子代理可以读取并操作这些结果。这就是中间结果在单个执行中的代理之间流动的方式。
迭代速度:从数月到数周 基于Deep Agents构建显著加快了Box的工程速度。Jalagam强调:“以前我们完全从头构建Box AI,这意味着需要更多时间才能将产品推向市场。”使用当前的技术栈,团队可以在几周内交付新的代理。加速也体现在代理平台本身:早期具有硬编码专用子代理的代理架构大约需要3个月开发和交付,而后续的递归父/子架构交付速度快了4倍。
扩展Box Agent的机构知识 Box Agent目前的能力(跨企业搜索、多文档综合、结构化报告生成)是未来具备资深员工机构知识的代理的基础。Jalagam说:“想象一个对各方面有十年理解的员工。”路线图包括代理内更丰富的记忆和知识组合、在后台离线收集和呈现信息的能力,以及与内部团队和外部系统的更深入通信。