AI News HubLIVE
站内改写3 分钟阅读

前Qwen负责人谈混合思维的失误——以及他为何现在支持智能体

前阿里巴巴Qwen技术负责人林俊阳在演讲和博文中批判了Qwen3的混合思维模式,并主张转向智能体思维。他解释了融合思考与非思考模式的困难,以及为何智能体强化学习需要解耦的基础设施和高质量环境以避免奖励篡改。

来源MarkTechPost作者: Michal Sutter

林俊阳曾是阿里巴巴Qwen项目的技术负责人。他于2026年3月3日宣布卸任,现以独立研究员身份在个人网站上更新动态。在一次题为“Qwen: 走向通用模型/智能体”的演讲中,他回顾了Qwen系列模型的发展,结尾处留下一句话:“训练模型 -> 训练智能体”。随后,他以独立研究员的身份将这句话扩展为一篇详细博文。本文将结合演讲与博文为从业者解读。

演讲全面介绍了Qwen模型家族,包括QwQ-32B、Qwen2.5-Max、Qwen3、Qwen2.5-VL和Qwen2.5-Omni等,并展示了与DeepSeek-R1、Grok 3 Beta、Gemini 2.5 Pro及OpenAI o系列等模型的基准对比。其中,Qwen3部分最为详尽。林强调其混合思维模式:思考模式用于逐步推理,非思考模式用于近乎即时的响应;并引入了动态思考预算,允许调用方限制模型的推理深度。Qwen3的多语言支持从29种扩展至119种语言和方言。

演讲展示了Qwen3的架构参数,从0.6B到235B参数量不等,包括密集型和MoE模型,并提及GGUF、GPTQ、AWQ和MLX等量化格式,全部基于Apache 2.0许可。演示环节包括Web开发和深度研究两个示例。结尾的“未来工作”幻灯片指向智能体,涉及更多预训练、带环境反馈的强化学习、更长上下文及更多模态。

林详细解释了混合思维的实施难点。思考模式与指导模式的优化目标相互矛盾:指导模型追求直接、简洁、低延迟,而思考模型则需为难题投入更多token。若草率合并,两者性能均会下降——思维行为变得臃肿,指导行为丧失干净利落。Qwen3尝试通过四阶段后训练流程(包括长思维链冷启动、推理RL及“思维模式融合”步骤)来合并,但后续(如2507系列)又推出了分离的指导变体和思维变体。林认为这更多是数据问题而非模型问题。他指出Anthropic的路线(如Claude 3.7 Sonnet的混合模型和Claude 4的推理与工具使用交错)提供了有益纠正:更长的推理轨迹不代表模型更智能,思考应由目标工作负载而非基准驱动。

林区分了两个时代:推理思维时代(由o1和DeepSeek-R1定义)和智能体思维时代。推理思维依赖确定性、可验证的奖励(如数学、代码和逻辑),并将强化学习转化为大规模回滚与验证的系统问题。而智能体思维则是“为了行动而思考”:智能体制定计划、决定何时行动、使用工具、读取环境反馈并修正计划。它涉及停止思考并采取行动的时机选择、工具调用顺序、处理噪声观测、失败后修订计划,以及在多轮工具调用中保持一致性。

林通过表格对比了两种思维的关键维度:推理思维判决标准是内部思考质量,奖励信号是数学/代码等可验证答案,核心训练对象是模型本身,基础设施瓶颈在于回滚与验证,主要失败模式是冗长无价值的推理轨迹;而智能体思维判决标准是行动中是否持续推进,奖励信号是交互环境中的任务成功,核心训练对象是模型及其环境(即“夹具”),基础设施瓶颈包括工具服务器、沙箱和训练-服务解耦,主要失败模式是通过工具访问和环境泄漏进行奖励篡改。

具体用例包括:编码智能体中,推理模型根据堆栈跟踪生成补丁,而智能体系统运行测试工具、读取实际错误、修订后重新运行直至测试通过;深度研究中,推理模型凭记忆撰写回答,而智能体系统拆解子查询、调用搜索、排除弱来源、返回带引用的答案;多智能体编排中,编排器规划并分发任务,专门子智能体执行窄任务并控制上下文污染。

林在演讲中通过代码示例展示了Qwen3的混合思维切换:enable_thinking标志在聊天模板中切换模式,默认为开启,输出将推理包裹在<think>...</think>块中。每个用户轮次还可附加/think/no_think进行软切换,动态思考预算即基于此。

关于基础设施,林强调智能体强化学习比推理强化学习更难。推理RL的回滚主要是自包含轨迹,有干净评估器;而智能体RL的策略运行在工具服务器、浏览器、终端和沙箱组成的夹具中。这要求训练和推理必须清晰解耦,否则回滚吞吐量会崩溃。例如,等待实时测试执行的编码智能体会阻塞推理并饿死训练,GPU利用率远低于推理RL。林指出,在SFT时代团队优化数据多样性,在智能体时代则应优化环境质量(稳定性、真实性、覆盖范围和抵抗利用的能力),奖励篡改因工具访问扩大了攻击面而成为最大挑战。

关键要点:林俊阳于2026年3月3日离开Qwen,现以独立研究员身份发表见解;其演讲的核心论点是领域正从训练模型转向训练智能体;智能体思维由环境中的持续行动而非内部思考来评判;智能体RL需要解耦的训练-服务基础设施和高质量环境,而非仅可验证奖励;一旦模型获得真实工具访问,奖励篡改是主要风险。