更好的模型无法拯救你的智能体 | Pinecone
文章指出,当前AI智能体的瓶颈不在于模型本身,而在于构建上下文工程。通过市场情报智能体分析10-K文件的例子,说明现有方法(智能体RAG和沙盒编码)效率低下。Pinecone推出了Nexus知识引擎,通过上下文编译器自动构建领域上下文,并使用KnowQL声明式查询语言,显著提升准确率、降低延迟和成本。
当前,在生产环境中构建智能体的团队都遇到了同样的瓶颈:模型本身很少成为限制因素,因为前沿模型已经具备大多数工作所需的推理能力。真正出问题的是推理步骤之前的所有环节。智能体接收任务后,决定需要信息,然后搜索、检索、评估结果,再决定需要更多信息,再次搜索、阅读、拼凑出部分信息,然后循环。等到模型准备好生成答案时,大部分令牌和延迟预算已经耗尽。
这就是当前智能体基础设施面临的鸿沟。围绕这一问题出现的学科是上下文工程:将数据塑造成模型可以使用的知识,而不是要求智能体在查询时从原始数据中重新组装。然而,将这种上下文管道投入运营是团队遇到的难题,尤其是在跨领域的实际公司中,每个领域(销售、法律、财务、支持、研发、运营)所需的上下文形状都不同。手工为每个领域构建一个上下文层是无法扩展的。
Pinecone过去一年致力于解决这个问题。本文介绍了他们构建的Pinecone Nexus——一个专为智能体设计的“知识引擎”。
具体例子:市场情报智能体
考虑一个投资公司的市场情报智能体,需要分析标普500公司的10-K文件。例如这样一个问题:“比较英伟达、微软和沃尔玛在2022财年的股票回购活动。对于每家公司,说明(a)回购金额和股数,(b)原始计划授权金额和批准日期(如披露),(c)截至财年末剩余授权。”
为了让这个智能体投入生产,上下文层需要满足四个要求:准确性、任务延迟(秒级)、令牌成本有界、以及治理(字段级权限和溯源)。然而,同时满足所有四个要求比想象中困难。
团队通常采用两种模式之一:智能体RAG(将10-K语料分块、嵌入,使用混合检索,让智能体循环)或沙盒编码(给智能体文件列表、页面读取、grep等工具,让它自己导航查找答案)。这两种方法最终可能得到正确结果,但通常太慢太贵,无法投入生产。它们都面临同样的根本挑战:让智能体在查询时从零组装知识。
从手工工程上下文到编译知识
解决方案众所周知:不要每次让消费者自己推导结构。预先将数据塑造成包含消费者所需结构的工件,并直接提供。知识图谱、实体目录和语义层已存在数十年。每一代数据基础设施都体现了同样的直觉:一次性完成定向工作,存储结果,让下游消费者直接读取。上下文工程就是这种直觉的最新版本,现在应用于智能体而非仪表盘。
难题:跨领域运营
然而,难点在于概念本身,而在于运营。为一个领域构建良好的工件层需要成熟的团队和数月迭代,决定使用哪些具体的策展策略、检索设计、评估框架和治理钩子。实际公司不止一个领域,而是数十个(如销售、客户支持、法律、财务、研发),每个领域都有自己的数据形状、模式、方言和访问模式。将数月迭代乘以每个需要智能体的领域,很快就会耗尽构建这些管道的资源。实际上,结果通常是为最高价值的一两个领域构建层,或者根本不构建。
新型知识基础设施
这个问题指向了一种新型知识基础设施的需求:上下文层作为基础设施运行,跨领域自动化,而不是手工调整和构建。层存在,你进行配置,而不是每次新用例都从头重建。
Pinecone Nexus就是为此而生。其核心是上下文编译器(Context Compiler),一个自主编码智能体,它可以为每个领域编写和调整策展和查询代码。它使用智能体框架,结合评估集、预验证技能库和反馈循环,自动发现合适的工件结构、粒度和构建策略。大多数新领域可以通过重新组合现有技能来服务;当真正不匹配时,将新技能加入库中。
早期设计合作伙伴的测试显示,编译器在数天内(而非数月)就能交付新领域的上下文。
KnowQL声明式查询
一旦上下文创建完成,下一步是确保智能体能有效使用它。如果智能体必须发出段落级自然语言查询,然后解析返回的文本块,那么之前的失败就会重演——智能体在每次调用中都浪费时间和令牌重新定位。Pinecone设计了KnowQL(知识查询语言),让智能体声明它需要什么,并获得精确、类型化、带引用的响应。
KnowQL查询由四部分组成:意图(问题、响应形状和上下文范围)、过滤器(确定性谓词和访问控制)、溯源(字段级引用)、控制(预算包,成本以结果而非令牌声明)。
例如,对于上述标普10-K问题,智能体发出KnowQL查询,指定请求的结构化对象。引擎返回一个类型化响应,智能体唯一的推理步骤就是比较这个响应对象,因为所有定向工作已在构建时完成。
衡量知识检索的影响
为了证明Nexus的价值,Pinecone创建了KRAFTBench(知识检索评估框架),从端到端智能体循环的角度衡量不同检索策略的准确性、延迟和令牌成本。测试的三种检索机制是:编码智能体(提供小型只读文件系统工具集)、智能体RAG(分块嵌入到向量数据库)、以及Pinecone Nexus。结果显示,Nexus在准确率、延迟和成本方面均显著优于其他方法。
Pinecone Nexus代表了智能体基础设施的未来方向:将上下文工程从手工定制转变为自动化基础设施。