AI News HubLIVE
站内改写

约束税:衡量小型语言模型结构化输出的有效性与正确性权衡

该论文提出“约束税”概念,衡量结构化输出约束对小型语言模型答案准确性的损失。实验表明,强制遵循JSON等模式虽提升格式正确性,但显著降低答案准确性,建议采用“先自由推理,后约束打包”的设计模式。

文章情报

工程师进阶

要点

  • 硬输出约束会降低小模型的答案准确性,产生“约束税”。
  • 实验中,模式有效性从61.5%提高到100%,但答案准确性从19.7%降至11.0%。
  • 错误模式下的正确输出比例从49.5%升至88.9%。
  • 建议生产系统分别报告模式有效性、答案准确性、可执行准确性和错误模式正确率。

为什么重要

这条新闻值得关注,因为硬输出约束会降低小模型的答案准确性,产生“约束税”。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

当前,生产级大语言模型系统越来越多地要求输出机器可读的格式,如JSON对象、类型化轨迹、正则表达式约束的字段以及工具调用模式。然而,当部署在设备端或低成本场景时,参数小于30亿的小型语言模型虽然具有隐私、低延迟和通用硬件的优势,但在满足格式约束的同时完成实际任务的能力有限。

通常的工程假设是,硬性输出约束能够提高可靠性而不会改变答案本身。但本文指出,这一假设对于小模型而言并不安全。研究者提出了“约束税”(constraint tax)这一测量协议,用于在固定模型、固定任务分布和固定问题实例下,隔离结构化输出约束导致的答案准确性和可执行准确性损失。

在超过15,000次使用Qwen2.5-0.5B、Qwen2.5-1.5B和SmolLM2-1.7B的商用GPU生成实验中,仅对答案进行硬性模式解码使模式有效性从61.5%提升至100%,但答案准确性从19.7%下降至11.0%,同时错误但符合模式的输出从49.5%激增至88.9%。在最具代表性的行业类比——确定性日历工具调用任务中,Qwen2.5-1.5B通过仅提示JSON实现了91.5%的可执行准确性,而在相同工具调用模式下仅达到48.0%,且两种方式均实现了100%的模式有效性。这表明错误是语义性的,而非结构性的。

研究还发现,30亿参数的边界仍然存在直接的模式税,而延迟打包(delayed packaging)支持一种建设性设计模式:先自由推理,后约束打包。实际的结论很直接:生产系统应当分别报告模式有效性、答案准确性、可执行准确性和错误模式正确率。本文的发现对依赖小模型进行结构化输出的生产系统具有重要指导意义,提醒工程师不要盲目假设硬约束无损于答案质量。未来工作可探索更智能的约束施加策略,以及在不同模型规模上的泛化性。