2026-06-30 23:17 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 23:28 UTC+8

不要構建路由器。訓練小模型知道何時交給大模型

本文介紹了一種兩層級聯方法，其中一個小型專用模型處理絕大多數簡單查詢，並在遇到困難問題時自動調用大型前沿模型。這種方法在保持與全部使用大模型相當的質量的同時，顯著降低了成本和延遲。

來源Hacker News AI作者: kkm

文章情報

工程師進階

要點

使用兩層級聯：小型模型處理大多數簡單查詢，大型模型處理困難的少數查詢，實現成本與質量的平衡。
小型模型經過訓練，能夠在遇到超出其能力範圍的問題時發出‘交給大模型’的工具調用，無需額外路由器。
在航空客服演示中，小型模型處理約96%的查詢，僅將最難的4%升級到大模型，質量與全部使用大模型相當。
訓練過程基於知識蒸餾：教師模型標記困難查詢，學生模型學習識別它們，並通過合成數據擴展訓練。

為甚麼重要

這條新聞值得關注，因為使用兩層級聯：小型模型處理大多數簡單查詢，大型模型處理困難的少數查詢，實現成本與質量的平衡。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

在構建客户支持助手時，常見困境是：使用前沿大語言模型處理所有對話可獲得高質量，但成本高昂，尤其對於大多數簡單查詢（如“查詢我的預訂”或“我的行李額度”）。而僅用小型模型可大幅降低成本，但在複雜問題（如退費資格、多約束重新訂票）上可能給出錯誤答案。本文提出兩層級聯方案，結合兩者優點：微調後的小型語言模型（SLM）以低成本處理大部分簡單查詢，前沿模型僅處理少數複雜問題，確保質量。

關鍵創新在於無需複雜路由系統。SLM經訓練能在超出知識範圍時自動調用“defer_to_larger_model”工具，由編排器轉交對話。這避免了單獨分類器或置信度閾值，路由決策內置於小模型。演示使用微調後的Qwen3-1.7B處理約96%查詢，僅升級最難4%到大模型。實驗顯示，級聯繫統質量與全部使用前沿模型（GLM-5）無統計差異，但前沿模型調用減少約25倍。

訓練基於知識蒸餾：從APIGen-MT數據集篩選航空對話，教師模型（GLM-5）重寫為乾淨策略正確的對話並標記困難查詢，然後通過合成數據擴展微調Qwen3-1.7B。這種方法降低成本並提高響應速度，對語音支持尤為重要。文章還提供了訓練自定義推遲SLM的工作流程，包括上傳軌跡、配置和訓練命令。當前完全依賴前沿模型的支持系統可通過此級聯方法顯著節省成本而不犧牲質量。