AI News HubLIVE
站内改写1 分钟阅读

不要构建路由器。训练小模型知道何时交给大模型

本文介绍了一种两层级联方法,其中一个小型专用模型处理绝大多数简单查询,并在遇到困难问题时自动调用大型前沿模型。这种方法在保持与全部使用大模型相当的质量的同时,显著降低了成本和延迟。

来源Hacker News AI作者: kkm

在构建客户支持助手时,常见困境是:使用前沿大语言模型处理所有对话可获得高质量,但成本高昂,尤其对于大多数简单查询(如“查询我的预订”或“我的行李额度”)。而仅用小型模型可大幅降低成本,但在复杂问题(如退费资格、多约束重新订票)上可能给出错误答案。本文提出两层级联方案,结合两者优点:微调后的小型语言模型(SLM)以低成本处理大部分简单查询,前沿模型仅处理少数复杂问题,确保质量。

关键创新在于无需复杂路由系统。SLM经训练能在超出知识范围时自动调用“defer_to_larger_model”工具,由编排器转交对话。这避免了单独分类器或置信度阈值,路由决策内置于小模型。演示使用微调后的Qwen3-1.7B处理约96%查询,仅升级最难4%到大模型。实验显示,级联系统质量与全部使用前沿模型(GLM-5)无统计差异,但前沿模型调用减少约25倍。

训练基于知识蒸馏:从APIGen-MT数据集筛选航空对话,教师模型(GLM-5)重写为干净策略正确的对话并标记困难查询,然后通过合成数据扩展微调Qwen3-1.7B。这种方法降低成本并提高响应速度,对语音支持尤为重要。文章还提供了训练自定义推迟SLM的工作流程,包括上传轨迹、配置和训练命令。当前完全依赖前沿模型的支持系统可通过此级联方法显著节省成本而不牺牲质量。