2026-06-30 23:17 UTC+8站内改写1 分钟阅读更新: 2026-06-30 23:28 UTC+8

不要构建路由器。训练小模型知道何时交给大模型

本文介绍了一种两层级联方法，其中一个小型专用模型处理绝大多数简单查询，并在遇到困难问题时自动调用大型前沿模型。这种方法在保持与全部使用大模型相当的质量的同时，显著降低了成本和延迟。

来源Hacker News AI作者: kkm

文章情报

工程师进阶

要点

使用两层级联：小型模型处理大多数简单查询，大型模型处理困难的少数查询，实现成本与质量的平衡。
小型模型经过训练，能够在遇到超出其能力范围的问题时发出‘交给大模型’的工具调用，无需额外路由器。
在航空客服演示中，小型模型处理约96%的查询，仅将最难的4%升级到大模型，质量与全部使用大模型相当。
训练过程基于知识蒸馏：教师模型标记困难查询，学生模型学习识别它们，并通过合成数据扩展训练。

为什么重要

这条新闻值得关注，因为使用两层级联：小型模型处理大多数简单查询，大型模型处理困难的少数查询，实现成本与质量的平衡。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

在构建客户支持助手时，常见困境是：使用前沿大语言模型处理所有对话可获得高质量，但成本高昂，尤其对于大多数简单查询（如“查询我的预订”或“我的行李额度”）。而仅用小型模型可大幅降低成本，但在复杂问题（如退费资格、多约束重新订票）上可能给出错误答案。本文提出两层级联方案，结合两者优点：微调后的小型语言模型（SLM）以低成本处理大部分简单查询，前沿模型仅处理少数复杂问题，确保质量。

关键创新在于无需复杂路由系统。SLM经训练能在超出知识范围时自动调用“defer_to_larger_model”工具，由编排器转交对话。这避免了单独分类器或置信度阈值，路由决策内置于小模型。演示使用微调后的Qwen3-1.7B处理约96%查询，仅升级最难4%到大模型。实验显示，级联系统质量与全部使用前沿模型（GLM-5）无统计差异，但前沿模型调用减少约25倍。

训练基于知识蒸馏：从APIGen-MT数据集筛选航空对话，教师模型（GLM-5）重写为干净策略正确的对话并标记困难查询，然后通过合成数据扩展微调Qwen3-1.7B。这种方法降低成本并提高响应速度，对语音支持尤为重要。文章还提供了训练自定义推迟SLM的工作流程，包括上传轨迹、配置和训练命令。当前完全依赖前沿模型的支持系统可通过此级联方法显著节省成本而不牺牲质量。