2026-06-03 04:13 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

會話感知的智慧體路由：面向長週期任務的連續性感知模型選擇

SAAR（會話感知的智慧體路由）是一種會話感知的模型選擇策略，專為解決長週期LLM智慧體中的路由問題而設計。它透過新增路由器擁有的會話記憶、工具迴圈和非可移植提供者狀態的硬鎖定、安全重置邊界、字首快取感知的切換定價以及可重放蹤跡，將模型切換減少了79.29%，消除了3,836次不安全切換，並將估計的物理模型成本降低了78.71%。在2,896個即時AMD ROCm請求中，SAAR保持了會話連續性，觀測到0次違規。

來源Hacker News AI作者: matt_d

長週期LLM智慧體引入了一個路由問題，而單輪提示路由器並非為此設計。路由器仍然需要知道哪個模型最適合當前請求，但它也需要知道何時切換模型會破壞會話。

本文介紹了會話感知的智慧體路由（SAAR），這是vLLM語義路由器中的一種會話感知模型選擇策略。SAAR保留了語義路由，但增加了路由器擁有的會話記憶、工具迴圈和非可移植提供者狀態的硬鎖定、安全重置邊界、字首快取感知的切換定價以及可重放蹤跡。

在21,600個確定性輪次中，SAAR將模型切換減少了79.29%，消除了3,836次不安全切換，並將估計的物理模型成本降低了78.71%。在2,896個即時AMD ROCm請求中，它保持了會話連續性，觀測到0次違規。

從提示路由到會話路由

vLLM語義路由器始於一個簡單的系統觀察：並非每個請求都應透過推理堆疊的同一路徑。簡短的事實性問題、安全敏感提示、多模態請求、硬推理任務和領域特定查詢可能都需要不同的處理。

該思想的第一代是提示路由。路由器從當前請求中提取訊號，匹配路由決策，並選擇合適的路徑。Iris使這些訊號可組合。Athena透過擴充套件模型選擇、記憶、重放、長上下文訊號、多模態原語和AMD ROCm部署路徑，使路由器更具戰略性。

智慧體再次改變了路由的單位。

編碼或研究智慧體不是一個提示。它是一個會話。它規劃、呼叫工具、接收工具輸出、編輯檔案、執行測試、從錯誤中恢復、暫停、恢復，並經常傳送非常短的後續訊息，如“繼續”、“修復它”、“再執行一次”或“使用之前的結果”。這些輪次之所以有意義，只是因為它們之前的軌跡。

這就是為什麼這個里程碑對語義路由器如此重要。路由器不再僅僅回答“哪個模型應該處理這個請求？”。對於智慧體流量，路由器還必須回答“在當前會話中切換模型是否安全？”。第二個問題正是SAAR旨在處理的。

為什麼單輪路由對智慧體失效

單輪路由在區域性可能是正確的，但對會話來說可能是錯誤的。

考慮一個典型的工具使用智慧體迴圈：

第1輪：客戶端傳送“重構這個模組並執行測試。”提示路由器看到編碼任務；會話路由器必須記住會話已在某個物理模型上開始。
第2輪：模型發出工具呼叫。模型響應；下一個工具結果屬於同一模型。
第3輪：客戶端傳送工具結果。簡潔的觀察；發出工具呼叫的模型應接收結果。
第4輪：使用者說“修復失敗的情況”。簡短跟進；指令依賴於之前的程式碼、測試輸出和路由狀態。
第5輪：會話空閒後恢復。新的短訊息；路由器可以重新考慮舊模型是否仍然值得保留。

僅憑最新訊息不足夠。提示路由器可能認為工具結果看起來廉價，並將其傳送給較小的模型。它可能看到一個通用的“繼續”並重新執行正常選擇器。它可能錯過提供者管理的延續狀態屬於一個物理後端。它可能因為當前訊息短而丟棄前沿模型的預熱字首快取。

每個錯誤都有不同的失敗模式：

工具結果可能傳送給未發出工具呼叫的模型。
非可移植的延續ID可能傳送給錯誤的物理後端。
長時間的熱會話可能失去字首區域性性並變得不必要昂貴。
邏輯模型（如auto）可能變得難以除錯，因為使用者不再知道哪個物理模型實際服務了該輪次。

重點不是智慧體永遠不應切換模型。它們應該切換。好的路由器仍應在任務變難時從廉價模型切換到更強模型，並在會話達到安全邊界時切換回來。問題是路由器需要會話上下文來知道哪些時刻是安全的。

SAAR設計

SAAR保留了現有的語義路由器決策管道。仍從請求中提取訊號，仍匹配決策，模型選擇演算法仍在匹配的決策內對候選模型進行排序。

SAAR在該結果周圍新增了一個會話控制層。

它包含五個部分：

路由器記憶：儲存上一個物理模型、匹配的決策、階段、切換次數、空閒時間、快取證據和重放後設資料。為路由器提供會話上下文，而無需成為應用記憶。
硬鎖定：防止在活動工具迴圈或非可移植提供者管理狀態期間切換。在最佳化成本或質量之前保持正確性。
重置邊界：在空閒超時或決策漂移後允許重新選擇。防止會話感知路由退化為粘性會話。
切換經濟：定價交接成本、切換歷史、剩餘輪次先驗和字首快取結賬。使跨模型層級和會話長度的切換不對稱。
重放蹤跡：記錄路由器為何停留、切換或拒絕切換。使邏輯模型（如auto）可檢查。

這是一個模型選擇策略，而不是端點負載均衡器。語義路由器可以透過閘道器合同選擇模型或叢集。端點成員資格、健康檢查和叢集內的負載均衡仍是基礎設施職責。

最重要的規則：有時路由器必須不切換

最安全的模型切換並不總是最新提示得分最高的那一個。對於智慧體流量，某些輪次受連續性約束。

SAAR將兩種情況視為硬鎖定：

工具迴圈連續性：如果物理模型發出了工具呼叫，工具結果應返回給該物理模型。後續觀察不是新提示；它是本地執行迴圈的一部分。
提供者管理狀態：如果請求攜帶非可移植的延續狀態，如屬於一個後端的響應識別符號，SAAR保持上一個物理模型，而不是靜默地將狀態移到別處。

這些規則故意比成本規則更強。如果切換不安全，路由器不應透過更便宜的模型“買”出來。

SAAR還定義了相反邊界：路由器何時可以再次切換。空閒超時和決策漂移重新開啟選擇。如果智慧體暫停足夠長，連續性的價值衰減。如果匹配的決策改變（如使用者從程式碼編輯轉向綜合或從檢索轉向除錯），舊模型選擇不應永遠固定。

路由器記憶不是使用者記憶

“路由器記憶”可能誤導，因此邊界很重要。SAAR記憶不是對話記憶、檢索記憶或使用者檔案記憶。它不會總結對話，也不會嘗試為模型記住事實。它的職責更窄：保留足夠的路由狀態，使下一個模型選擇決策安全且可解釋。

對於每個會話，路由器跟蹤諸如：邏輯模型背後最後選擇的物理模型；最後匹配的路由決策；會話是否處於正常、工具迴圈、提供者狀態、空閒重置或漂移重置階段；最近發生的切換次數；最新的上下文長度和快取證據；將響應連結迴路由器決策蹤跡的重放ID。

這個範圍使系統操作上有用，而無需將路由器變成第二個智慧體記憶層。應用記憶應留在應用中。檢索記憶應留在檢索堆疊中。SAAR記憶僅用於使跨輪次的路由連貫。

字首快取使模型切換不對稱

對於長智慧體會話，模型切換不僅是質量決策，也是輸入側系統決策。

短重試在廉價模型上和40輪熱會話在前沿模型上不應被同等對待。後者累積了有價值的字首。切換離開它可能需要下一個物理模型支付更大的輸入成本，即使可見的使用者訊息很短。

因此，SAAR定價一個快取輸入結賬增量：正常提示輸入價格與所考慮物理模型的快取輸入價格之間的差距。會話越長越昂貴，策略關於丟棄字首區域性性就越嚴格。

這也澄清了路由邏輯模型的快取令牌會計。如果使用者呼叫auto，路由器可能隨時間將邏輯名稱對映到不同的物理模型。一個後端報告的快取命中是該後端的物理證據。它不能自動轉移到另一個後端。SAAR保持後端報告的快取令牌與路由器估計的重用分開，並且不會重寫上游使用欄位。

這種分離在操作上有用。運營商可以檢查物理快取行為，而路由器使用自己的記憶來決定切換是否值得結賬成本。

請求如何透過SAAR

服務路徑保持熟悉。客戶端傳送請求到OpenAI相容閘道器，通常使用邏輯模型名稱如auto。為了啟用會話感知路由，它們還傳送穩定的會話識別符號如x-session-id。

SAAR然後按順序處理每個輪次：

讀取當前請求、會話ID、工具呼叫上下文、提供者狀態標記和候選模型集。
執行正常的語義路由器訊號和決策管道。
從配置方法（如混合評分）產生基本模型選擇結果。
從路由器記憶載入上一個會話路由狀態。
應用工具迴圈和提供者管理狀態的硬鎖定。
檢查空閒超時和決策漂移邊界。
使用字首快取結賬成本和切換歷史調整切換分數。
選擇物理模型併發出診斷資訊。
更新路由器記憶並寫入重放蹤跡。

配置存在於路由決策的模型選擇演算法內：

routing:
 decisions:
 - name: agentic_routing
   modelRefs:
   - model: qwen3-8b
   - model: qwen3-32b
   algorithm:
     type: session_aware
     session_aware:
       base_method: hybrid
       idle_timeout_seconds: 300
       tool_loop_hard_lock: true
       context_portability_hard_lock: true
       decision_drift_reset: true
       prefix_cache_weight: 0.20
       switch_history_weight: 0.04

這些值是有意的策略旋鈕，不是一刀切的常量。客戶服務助手使用短會話可能使用更寬鬆的空閒超時。