AI News HubLIVE
站內改寫3 分鐘閱讀

更好的模型無法拯救你的智慧體 | Pinecone

文章指出,當前AI智慧體的瓶頸不在於模型本身,而在於構建上下文工程。透過市場情報智慧體分析10-K檔案的例子,說明現有方法(智慧體RAG和沙盒編碼)效率低下。Pinecone推出了Nexus知識引擎,透過上下文編譯器自動構建領域上下文,並使用KnowQL宣告式查詢語言,顯著提升準確率、降低延遲和成本。

當前,在生產環境中構建智慧體的團隊都遇到了同樣的瓶頸:模型本身很少成為限制因素,因為前沿模型已經具備大多數工作所需的推理能力。真正出問題的是推理步驟之前的所有環節。智慧體接收任務後,決定需要資訊,然後搜尋、檢索、評估結果,再決定需要更多資訊,再次搜尋、閱讀、拼湊出部分資訊,然後迴圈。等到模型準備好生成答案時,大部分令牌和延遲預算已經耗盡。

這就是當前智慧體基礎設施面臨的鴻溝。圍繞這一問題出現的學科是上下文工程:將資料塑造成模型可以使用的知識,而不是要求智慧體在查詢時從原始資料中重新組裝。然而,將這種上下文管道投入運營是團隊遇到的難題,尤其是在跨領域的實際公司中,每個領域(銷售、法律、財務、支援、研發、運營)所需的上下文形狀都不同。手工為每個領域構建一個上下文層是無法擴充套件的。

Pinecone過去一年致力於解決這個問題。本文介紹了他們構建的Pinecone Nexus——一個專為智慧體設計的“知識引擎”。

具體例子:市場情報智慧體

考慮一個投資公司的市場情報智慧體,需要分析標普500公司的10-K檔案。例如這樣一個問題:“比較輝達、微軟和沃爾瑪在2022財年的股票回購活動。對於每家公司,說明(a)回購金額和股數,(b)原始計劃授權金額和批准日期(如披露),(c)截至財年末剩餘授權。”

為了讓這個智慧體投入生產,上下文層需要滿足四個要求:準確性、任務延遲(秒級)、令牌成本有界、以及治理(欄位級許可權和溯源)。然而,同時滿足所有四個要求比想象中困難。

團隊通常採用兩種模式之一:智慧體RAG(將10-K語料分塊、嵌入,使用混合檢索,讓智慧體迴圈)或沙盒編碼(給智慧體檔案列表、頁面讀取、grep等工具,讓它自己導航查詢答案)。這兩種方法最終可能得到正確結果,但通常太慢太貴,無法投入生產。它們都面臨同樣的根本挑戰:讓智慧體在查詢時從零組裝知識。

從手工工程上下文到編譯知識

解決方案眾所周知:不要每次讓消費者自己推導結構。預先將資料塑造成包含消費者所需結構的工件,並直接提供。知識圖譜、實體目錄和語義層已存在數十年。每一代資料基礎設施都體現了同樣的直覺:一次性完成定向工作,儲存結果,讓下游消費者直接讀取。上下文工程就是這種直覺的最新版本,現在應用於智慧體而非儀表盤。

難題:跨領域運營

然而,難點在於概念本身,而在於運營。為一個領域構建良好的工件層需要成熟的團隊和數月迭代,決定使用哪些具體的策展策略、檢索設計、評估框架和治理鉤子。實際公司不止一個領域,而是數十個(如銷售、客戶支援、法律、財務、研發),每個領域都有自己的資料形狀、模式、方言和訪問模式。將數月迭代乘以每個需要智慧體的領域,很快就會耗盡構建這些管道的資源。實際上,結果通常是為最高價值的一兩個領域構建層,或者根本不構建。

新型知識基礎設施

這個問題指向了一種新型知識基礎設施的需求:上下文層作為基礎設施執行,跨領域自動化,而不是手工調整和構建。層存在,你進行配置,而不是每次新用例都從頭重建。

Pinecone Nexus就是為此而生。其核心是上下文編譯器(Context Compiler),一個自主編碼智慧體,它可以為每個領域編寫和調整策展和查詢程式碼。它使用智慧體框架,結合評估集、預驗證技能庫和反饋迴圈,自動發現合適的工件結構、粒度和構建策略。大多數新領域可以透過重新組合現有技能來服務;當真正不匹配時,將新技能加入庫中。

早期設計合作伙伴的測試顯示,編譯器在數天內(而非數月)就能交付新領域的上下文。

KnowQL宣告式查詢

一旦上下文建立完成,下一步是確保智慧體能有效使用它。如果智慧體必須發出段落級自然語言查詢,然後解析返回的文本塊,那麼之前的失敗就會重演——智慧體在每次呼叫中都浪費時間和令牌重新定位。Pinecone設計了KnowQL(知識查詢語言),讓智慧體宣告它需要什麼,並獲得精確、型別化、帶引用的響應。

KnowQL查詢由四部分組成:意圖(問題、響應形狀和上下文範圍)、過濾器(確定性謂詞和訪問控制)、溯源(欄位級引用)、控制(預算包,成本以結果而非令牌宣告)。

例如,對於上述標普10-K問題,智慧體發出KnowQL查詢,指定請求的結構化物件。引擎返回一個型別化響應,智慧體唯一的推理步驟就是比較這個響應物件,因為所有定向工作已在構建時完成。

衡量知識檢索的影響

為了證明Nexus的價值,Pinecone建立了KRAFTBench(知識檢索評估框架),從端到端智慧體迴圈的角度衡量不同檢索策略的準確性、延遲和令牌成本。測試的三種檢索機制是:編碼智慧體(提供小型只讀檔案系統工具集)、智慧體RAG(分塊嵌入到向量資料庫)、以及Pinecone Nexus。結果顯示,Nexus在準確率、延遲和成本方面均顯著優於其他方法。

Pinecone Nexus代表了智慧體基礎設施的未來方向:將上下文工程從手工定製轉變為自動化基礎設施。