更好的模型無法拯救你的智能體 | Pinecone
文章指出,當前AI智能體的瓶頸不在於模型本身,而在於構建上下文工程。通過市場情報智能體分析10-K文件的例子,説明現有方法(智能體RAG和沙盒編碼)效率低下。Pinecone推出了Nexus知識引擎,通過上下文編譯器自動構建領域上下文,並使用KnowQL聲明式查詢語言,顯著提升準確率、降低延遲和成本。
當前,在生產環境中構建智能體的團隊都遇到了同樣的瓶頸:模型本身很少成為限制因素,因為前沿模型已經具備大多數工作所需的推理能力。真正出問題的是推理步驟之前的所有環節。智能體接收任務後,決定需要信息,然後搜索、檢索、評估結果,再決定需要更多信息,再次搜索、閲讀、拼湊出部分信息,然後循環。等到模型準備好生成答案時,大部分令牌和延遲預算已經耗盡。
這就是當前智能體基礎設施面臨的鴻溝。圍繞這一問題出現的學科是上下文工程:將數據塑造成模型可以使用的知識,而不是要求智能體在查詢時從原始數據中重新組裝。然而,將這種上下文管道投入運營是團隊遇到的難題,尤其是在跨領域的實際公司中,每個領域(銷售、法律、財務、支持、研發、運營)所需的上下文形狀都不同。手工為每個領域構建一個上下文層是無法擴展的。
Pinecone過去一年致力於解決這個問題。本文介紹了他們構建的Pinecone Nexus——一個專為智能體設計的“知識引擎”。
具體例子:市場情報智能體
考慮一個投資公司的市場情報智能體,需要分析標普500公司的10-K文件。例如這樣一個問題:“比較英偉達、微軟和沃爾瑪在2022財年的股票回購活動。對於每家公司,説明(a)回購金額和股數,(b)原始計劃授權金額和批准日期(如披露),(c)截至財年末剩餘授權。”
為了讓這個智能體投入生產,上下文層需要滿足四個要求:準確性、任務延遲(秒級)、令牌成本有界、以及治理(字段級權限和溯源)。然而,同時滿足所有四個要求比想象中困難。
團隊通常採用兩種模式之一:智能體RAG(將10-K語料分塊、嵌入,使用混合檢索,讓智能體循環)或沙盒編碼(給智能體文件列表、頁面讀取、grep等工具,讓它自己導航查找答案)。這兩種方法最終可能得到正確結果,但通常太慢太貴,無法投入生產。它們都面臨同樣的根本挑戰:讓智能體在查詢時從零組裝知識。
從手工工程上下文到編譯知識
解決方案眾所周知:不要每次讓消費者自己推導結構。預先將數據塑造成包含消費者所需結構的工件,並直接提供。知識圖譜、實體目錄和語義層已存在數十年。每一代數據基礎設施都體現了同樣的直覺:一次性完成定向工作,存儲結果,讓下游消費者直接讀取。上下文工程就是這種直覺的最新版本,現在應用於智能體而非儀表盤。
難題:跨領域運營
然而,難點在於概念本身,而在於運營。為一個領域構建良好的工件層需要成熟的團隊和數月迭代,決定使用哪些具體的策展策略、檢索設計、評估框架和治理鈎子。實際公司不止一個領域,而是數十個(如銷售、客户支持、法律、財務、研發),每個領域都有自己的數據形狀、模式、方言和訪問模式。將數月迭代乘以每個需要智能體的領域,很快就會耗盡構建這些管道的資源。實際上,結果通常是為最高價值的一兩個領域構建層,或者根本不構建。
新型知識基礎設施
這個問題指向了一種新型知識基礎設施的需求:上下文層作為基礎設施運行,跨領域自動化,而不是手工調整和構建。層存在,你進行配置,而不是每次新用例都從頭重建。
Pinecone Nexus就是為此而生。其核心是上下文編譯器(Context Compiler),一個自主編碼智能體,它可以為每個領域編寫和調整策展和查詢代碼。它使用智能體框架,結合評估集、預驗證技能庫和反饋循環,自動發現合適的工件結構、粒度和構建策略。大多數新領域可以通過重新組合現有技能來服務;當真正不匹配時,將新技能加入庫中。
早期設計合作伙伴的測試顯示,編譯器在數天內(而非數月)就能交付新領域的上下文。
KnowQL聲明式查詢
一旦上下文創建完成,下一步是確保智能體能有效使用它。如果智能體必須發出段落級自然語言查詢,然後解析返回的文本塊,那麼之前的失敗就會重演——智能體在每次調用中都浪費時間和令牌重新定位。Pinecone設計了KnowQL(知識查詢語言),讓智能體聲明它需要什麼,並獲得精確、類型化、帶引用的響應。
KnowQL查詢由四部分組成:意圖(問題、響應形狀和上下文範圍)、過濾器(確定性謂詞和訪問控制)、溯源(字段級引用)、控制(預算包,成本以結果而非令牌聲明)。
例如,對於上述標普10-K問題,智能體發出KnowQL查詢,指定請求的結構化對象。引擎返回一個類型化響應,智能體唯一的推理步驟就是比較這個響應對象,因為所有定向工作已在構建時完成。
衡量知識檢索的影響
為了證明Nexus的價值,Pinecone創建了KRAFTBench(知識檢索評估框架),從端到端智能體循環的角度衡量不同檢索策略的準確性、延遲和令牌成本。測試的三種檢索機制是:編碼智能體(提供小型只讀文件系統工具集)、智能體RAG(分塊嵌入到向量數據庫)、以及Pinecone Nexus。結果顯示,Nexus在準確率、延遲和成本方面均顯著優於其他方法。
Pinecone Nexus代表了智能體基礎設施的未來方向:將上下文工程從手工定製轉變為自動化基礎設施。