2026-05-15 10:20 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

更好的模型無法拯救你的智能體 | Pinecone

文章指出，當前AI智能體的瓶頸不在於模型本身，而在於構建上下文工程。通過市場情報智能體分析10-K文件的例子，説明現有方法（智能體RAG和沙盒編碼）效率低下。Pinecone推出了Nexus知識引擎，通過上下文編譯器自動構建領域上下文，並使用KnowQL聲明式查詢語言，顯著提升準確率、降低延遲和成本。

來源Pinecone Blog

當前，在生產環境中構建智能體的團隊都遇到了同樣的瓶頸：模型本身很少成為限制因素，因為前沿模型已經具備大多數工作所需的推理能力。真正出問題的是推理步驟之前的所有環節。智能體接收任務後，決定需要信息，然後搜索、檢索、評估結果，再決定需要更多信息，再次搜索、閲讀、拼湊出部分信息，然後循環。等到模型準備好生成答案時，大部分令牌和延遲預算已經耗盡。

這就是當前智能體基礎設施面臨的鴻溝。圍繞這一問題出現的學科是上下文工程：將數據塑造成模型可以使用的知識，而不是要求智能體在查詢時從原始數據中重新組裝。然而，將這種上下文管道投入運營是團隊遇到的難題，尤其是在跨領域的實際公司中，每個領域（銷售、法律、財務、支持、研發、運營）所需的上下文形狀都不同。手工為每個領域構建一個上下文層是無法擴展的。

Pinecone過去一年致力於解決這個問題。本文介紹了他們構建的Pinecone Nexus——一個專為智能體設計的“知識引擎”。

具體例子：市場情報智能體

考慮一個投資公司的市場情報智能體，需要分析標普500公司的10-K文件。例如這樣一個問題：“比較英偉達、微軟和沃爾瑪在2022財年的股票回購活動。對於每家公司，説明(a)回購金額和股數，(b)原始計劃授權金額和批准日期（如披露），(c)截至財年末剩餘授權。”

為了讓這個智能體投入生產，上下文層需要滿足四個要求：準確性、任務延遲（秒級）、令牌成本有界、以及治理（字段級權限和溯源）。然而，同時滿足所有四個要求比想象中困難。

團隊通常採用兩種模式之一：智能體RAG（將10-K語料分塊、嵌入，使用混合檢索，讓智能體循環）或沙盒編碼（給智能體文件列表、頁面讀取、grep等工具，讓它自己導航查找答案）。這兩種方法最終可能得到正確結果，但通常太慢太貴，無法投入生產。它們都面臨同樣的根本挑戰：讓智能體在查詢時從零組裝知識。

從手工工程上下文到編譯知識

解決方案眾所周知：不要每次讓消費者自己推導結構。預先將數據塑造成包含消費者所需結構的工件，並直接提供。知識圖譜、實體目錄和語義層已存在數十年。每一代數據基礎設施都體現了同樣的直覺：一次性完成定向工作，存儲結果，讓下游消費者直接讀取。上下文工程就是這種直覺的最新版本，現在應用於智能體而非儀表盤。

難題：跨領域運營

然而，難點在於概念本身，而在於運營。為一個領域構建良好的工件層需要成熟的團隊和數月迭代，決定使用哪些具體的策展策略、檢索設計、評估框架和治理鈎子。實際公司不止一個領域，而是數十個（如銷售、客户支持、法律、財務、研發），每個領域都有自己的數據形狀、模式、方言和訪問模式。將數月迭代乘以每個需要智能體的領域，很快就會耗盡構建這些管道的資源。實際上，結果通常是為最高價值的一兩個領域構建層，或者根本不構建。

新型知識基礎設施

這個問題指向了一種新型知識基礎設施的需求：上下文層作為基礎設施運行，跨領域自動化，而不是手工調整和構建。層存在，你進行配置，而不是每次新用例都從頭重建。

Pinecone Nexus就是為此而生。其核心是上下文編譯器（Context Compiler），一個自主編碼智能體，它可以為每個領域編寫和調整策展和查詢代碼。它使用智能體框架，結合評估集、預驗證技能庫和反饋循環，自動發現合適的工件結構、粒度和構建策略。大多數新領域可以通過重新組合現有技能來服務；當真正不匹配時，將新技能加入庫中。

早期設計合作伙伴的測試顯示，編譯器在數天內（而非數月）就能交付新領域的上下文。

KnowQL聲明式查詢

一旦上下文創建完成，下一步是確保智能體能有效使用它。如果智能體必須發出段落級自然語言查詢，然後解析返回的文本塊，那麼之前的失敗就會重演——智能體在每次調用中都浪費時間和令牌重新定位。Pinecone設計了KnowQL（知識查詢語言），讓智能體聲明它需要什麼，並獲得精確、類型化、帶引用的響應。

KnowQL查詢由四部分組成：意圖（問題、響應形狀和上下文範圍）、過濾器（確定性謂詞和訪問控制）、溯源（字段級引用）、控制（預算包，成本以結果而非令牌聲明）。

例如，對於上述標普10-K問題，智能體發出KnowQL查詢，指定請求的結構化對象。引擎返回一個類型化響應，智能體唯一的推理步驟就是比較這個響應對象，因為所有定向工作已在構建時完成。

衡量知識檢索的影響

為了證明Nexus的價值，Pinecone創建了KRAFTBench（知識檢索評估框架），從端到端智能體循環的角度衡量不同檢索策略的準確性、延遲和令牌成本。測試的三種檢索機制是：編碼智能體（提供小型只讀文件系統工具集）、智能體RAG（分塊嵌入到向量數據庫）、以及Pinecone Nexus。結果顯示，Nexus在準確率、延遲和成本方面均顯著優於其他方法。

Pinecone Nexus代表了智能體基礎設施的未來方向：將上下文工程從手工定製轉變為自動化基礎設施。