AI News HubLIVE
站内改写5 分鐘閱讀

會話感知的智慧體路由:面向長週期任務的連續性感知模型選擇

SAAR(會話感知的智慧體路由)是一種會話感知的模型選擇策略,專為解決長週期LLM智慧體中的路由問題而設計。它透過新增路由器擁有的會話記憶、工具迴圈和非可移植提供者狀態的硬鎖定、安全重置邊界、字首快取感知的切換定價以及可重放蹤跡,將模型切換減少了79.29%,消除了3,836次不安全切換,並將估計的物理模型成本降低了78.71%。在2,896個即時AMD ROCm請求中,SAAR保持了會話連續性,觀測到0次違規。

來源Hacker News AI作者: matt_d

長週期LLM智慧體引入了一個路由問題,而單輪提示路由器並非為此設計。路由器仍然需要知道哪個模型最適合當前請求,但它也需要知道何時切換模型會破壞會話。

本文介紹了會話感知的智慧體路由(SAAR),這是vLLM語義路由器中的一種會話感知模型選擇策略。SAAR保留了語義路由,但增加了路由器擁有的會話記憶、工具迴圈和非可移植提供者狀態的硬鎖定、安全重置邊界、字首快取感知的切換定價以及可重放蹤跡。

在21,600個確定性輪次中,SAAR將模型切換減少了79.29%,消除了3,836次不安全切換,並將估計的物理模型成本降低了78.71%。在2,896個即時AMD ROCm請求中,它保持了會話連續性,觀測到0次違規。

從提示路由到會話路由

vLLM語義路由器始於一個簡單的系統觀察:並非每個請求都應透過推理堆疊的同一路徑。簡短的事實性問題、安全敏感提示、多模態請求、硬推理任務和領域特定查詢可能都需要不同的處理。

該思想的第一代是提示路由。路由器從當前請求中提取訊號,匹配路由決策,並選擇合適的路徑。Iris使這些訊號可組合。Athena透過擴充套件模型選擇、記憶、重放、長上下文訊號、多模態原語和AMD ROCm部署路徑,使路由器更具戰略性。

智慧體再次改變了路由的單位。

編碼或研究智慧體不是一個提示。它是一個會話。它規劃、呼叫工具、接收工具輸出、編輯檔案、執行測試、從錯誤中恢復、暫停、恢復,並經常傳送非常短的後續訊息,如“繼續”、“修復它”、“再執行一次”或“使用之前的結果”。這些輪次之所以有意義,只是因為它們之前的軌跡。

這就是為什麼這個里程碑對語義路由器如此重要。路由器不再僅僅回答“哪個模型應該處理這個請求?”。對於智慧體流量,路由器還必須回答“在當前會話中切換模型是否安全?”。第二個問題正是SAAR旨在處理的。

為什麼單輪路由對智慧體失效

單輪路由在區域性可能是正確的,但對會話來說可能是錯誤的。

考慮一個典型的工具使用智慧體迴圈:

  • 第1輪:客戶端傳送“重構這個模組並執行測試。”提示路由器看到編碼任務;會話路由器必須記住會話已在某個物理模型上開始。
  • 第2輪:模型發出工具呼叫。模型響應;下一個工具結果屬於同一模型。
  • 第3輪:客戶端傳送工具結果。簡潔的觀察;發出工具呼叫的模型應接收結果。
  • 第4輪:使用者說“修復失敗的情況”。簡短跟進;指令依賴於之前的程式碼、測試輸出和路由狀態。
  • 第5輪:會話空閒後恢復。新的短訊息;路由器可以重新考慮舊模型是否仍然值得保留。

僅憑最新訊息不足夠。提示路由器可能認為工具結果看起來廉價,並將其傳送給較小的模型。它可能看到一個通用的“繼續”並重新執行正常選擇器。它可能錯過提供者管理的延續狀態屬於一個物理後端。它可能因為當前訊息短而丟棄前沿模型的預熱字首快取。

每個錯誤都有不同的失敗模式:

  • 工具結果可能傳送給未發出工具呼叫的模型。
  • 非可移植的延續ID可能傳送給錯誤的物理後端。
  • 長時間的熱會話可能失去字首區域性性並變得不必要昂貴。
  • 邏輯模型(如auto)可能變得難以除錯,因為使用者不再知道哪個物理模型實際服務了該輪次。

重點不是智慧體永遠不應切換模型。它們應該切換。好的路由器仍應在任務變難時從廉價模型切換到更強模型,並在會話達到安全邊界時切換回來。問題是路由器需要會話上下文來知道哪些時刻是安全的。

SAAR設計

SAAR保留了現有的語義路由器決策管道。仍從請求中提取訊號,仍匹配決策,模型選擇演算法仍在匹配的決策內對候選模型進行排序。

SAAR在該結果周圍新增了一個會話控制層。

它包含五個部分:

  1. 路由器記憶:儲存上一個物理模型、匹配的決策、階段、切換次數、空閒時間、快取證據和重放後設資料。為路由器提供會話上下文,而無需成為應用記憶。
  2. 硬鎖定:防止在活動工具迴圈或非可移植提供者管理狀態期間切換。在最佳化成本或質量之前保持正確性。
  3. 重置邊界:在空閒超時或決策漂移後允許重新選擇。防止會話感知路由退化為粘性會話。
  4. 切換經濟:定價交接成本、切換歷史、剩餘輪次先驗和字首快取結賬。使跨模型層級和會話長度的切換不對稱。
  5. 重放蹤跡:記錄路由器為何停留、切換或拒絕切換。使邏輯模型(如auto)可檢查。

這是一個模型選擇策略,而不是端點負載均衡器。語義路由器可以透過閘道器合同選擇模型或叢集。端點成員資格、健康檢查和叢集內的負載均衡仍是基礎設施職責。

最重要的規則:有時路由器必須不切換

最安全的模型切換並不總是最新提示得分最高的那一個。對於智慧體流量,某些輪次受連續性約束。

SAAR將兩種情況視為硬鎖定:

  • 工具迴圈連續性:如果物理模型發出了工具呼叫,工具結果應返回給該物理模型。後續觀察不是新提示;它是本地執行迴圈的一部分。
  • 提供者管理狀態:如果請求攜帶非可移植的延續狀態,如屬於一個後端的響應識別符號,SAAR保持上一個物理模型,而不是靜默地將狀態移到別處。

這些規則故意比成本規則更強。如果切換不安全,路由器不應透過更便宜的模型“買”出來。

SAAR還定義了相反邊界:路由器何時可以再次切換。空閒超時和決策漂移重新開啟選擇。如果智慧體暫停足夠長,連續性的價值衰減。如果匹配的決策改變(如使用者從程式碼編輯轉向綜合或從檢索轉向除錯),舊模型選擇不應永遠固定。

路由器記憶不是使用者記憶

“路由器記憶”可能誤導,因此邊界很重要。SAAR記憶不是對話記憶、檢索記憶或使用者檔案記憶。它不會總結對話,也不會嘗試為模型記住事實。它的職責更窄:保留足夠的路由狀態,使下一個模型選擇決策安全且可解釋。

對於每個會話,路由器跟蹤諸如:邏輯模型背後最後選擇的物理模型;最後匹配的路由決策;會話是否處於正常、工具迴圈、提供者狀態、空閒重置或漂移重置階段;最近發生的切換次數;最新的上下文長度和快取證據;將響應連結迴路由器決策蹤跡的重放ID。

這個範圍使系統操作上有用,而無需將路由器變成第二個智慧體記憶層。應用記憶應留在應用中。檢索記憶應留在檢索堆疊中。SAAR記憶僅用於使跨輪次的路由連貫。

字首快取使模型切換不對稱

對於長智慧體會話,模型切換不僅是質量決策,也是輸入側系統決策。

短重試在廉價模型上和40輪熱會話在前沿模型上不應被同等對待。後者累積了有價值的字首。切換離開它可能需要下一個物理模型支付更大的輸入成本,即使可見的使用者訊息很短。

因此,SAAR定價一個快取輸入結賬增量:正常提示輸入價格與所考慮物理模型的快取輸入價格之間的差距。會話越長越昂貴,策略關於丟棄字首區域性性就越嚴格。

這也澄清了路由邏輯模型的快取令牌會計。如果使用者呼叫auto,路由器可能隨時間將邏輯名稱對映到不同的物理模型。一個後端報告的快取命中是該後端的物理證據。它不能自動轉移到另一個後端。SAAR保持後端報告的快取令牌與路由器估計的重用分開,並且不會重寫上游使用欄位。

這種分離在操作上有用。運營商可以檢查物理快取行為,而路由器使用自己的記憶來決定切換是否值得結賬成本。

請求如何透過SAAR

服務路徑保持熟悉。客戶端傳送請求到OpenAI相容閘道器,通常使用邏輯模型名稱如auto。為了啟用會話感知路由,它們還傳送穩定的會話識別符號如x-session-id。

SAAR然後按順序處理每個輪次:

  1. 讀取當前請求、會話ID、工具呼叫上下文、提供者狀態標記和候選模型集。
  2. 執行正常的語義路由器訊號和決策管道。
  3. 從配置方法(如混合評分)產生基本模型選擇結果。
  4. 從路由器記憶載入上一個會話路由狀態。
  5. 應用工具迴圈和提供者管理狀態的硬鎖定。
  6. 檢查空閒超時和決策漂移邊界。
  7. 使用字首快取結賬成本和切換歷史調整切換分數。
  8. 選擇物理模型併發出診斷資訊。
  9. 更新路由器記憶並寫入重放蹤跡。

配置存在於路由決策的模型選擇演算法內:

routing:
 decisions:
 - name: agentic_routing
   modelRefs:
   - model: qwen3-8b
   - model: qwen3-32b
   algorithm:
     type: session_aware
     session_aware:
       base_method: hybrid
       idle_timeout_seconds: 300
       tool_loop_hard_lock: true
       context_portability_hard_lock: true
       decision_drift_reset: true
       prefix_cache_weight: 0.20
       switch_history_weight: 0.04

這些值是有意的策略旋鈕,不是一刀切的常量。客戶服務助手使用短會話可能使用更寬鬆的空閒超時。