AI News HubLIVE
站內改寫1 分鐘閱讀

不要構建路由器。訓練小模型知道何時交給大模型

本文介紹了一種兩層級聯方法,其中一個小型專用模型處理絕大多數簡單查詢,並在遇到困難問題時自動調用大型前沿模型。這種方法在保持與全部使用大模型相當的質量的同時,顯著降低了成本和延遲。

來源Hacker News AI作者: kkm

在構建客户支持助手時,常見困境是:使用前沿大語言模型處理所有對話可獲得高質量,但成本高昂,尤其對於大多數簡單查詢(如“查詢我的預訂”或“我的行李額度”)。而僅用小型模型可大幅降低成本,但在複雜問題(如退費資格、多約束重新訂票)上可能給出錯誤答案。本文提出兩層級聯方案,結合兩者優點:微調後的小型語言模型(SLM)以低成本處理大部分簡單查詢,前沿模型僅處理少數複雜問題,確保質量。

關鍵創新在於無需複雜路由系統。SLM經訓練能在超出知識範圍時自動調用“defer_to_larger_model”工具,由編排器轉交對話。這避免了單獨分類器或置信度閾值,路由決策內置於小模型。演示使用微調後的Qwen3-1.7B處理約96%查詢,僅升級最難4%到大模型。實驗顯示,級聯繫統質量與全部使用前沿模型(GLM-5)無統計差異,但前沿模型調用減少約25倍。

訓練基於知識蒸餾:從APIGen-MT數據集篩選航空對話,教師模型(GLM-5)重寫為乾淨策略正確的對話並標記困難查詢,然後通過合成數據擴展微調Qwen3-1.7B。這種方法降低成本並提高響應速度,對語音支持尤為重要。文章還提供了訓練自定義推遲SLM的工作流程,包括上傳軌跡、配置和訓練命令。當前完全依賴前沿模型的支持系統可通過此級聯方法顯著節省成本而不犧牲質量。

不要構建路由器。訓練小模型知道何時交給大模型 | AI News Hub