AI News HubLIVE
站內改寫3 分鐘閱讀

前Qwen負責人談混合思維的失誤——以及他為何現在支持智能體

前阿里巴巴Qwen技術負責人林俊陽在演講和博文中批判了Qwen3的混合思維模式,並主張轉向智能體思維。他解釋了融合思考與非思考模式的困難,以及為何智能體強化學習需要解耦的基礎設施和高質量環境以避免獎勵篡改。

來源MarkTechPost作者: Michal Sutter

林俊陽曾是阿里巴巴Qwen項目的技術負責人。他於2026年3月3日宣佈卸任,現以獨立研究員身份在個人網站上更新動態。在一次題為“Qwen: 走向通用模型/智能體”的演講中,他回顧了Qwen系列模型的發展,結尾處留下一句話:“訓練模型 -> 訓練智能體”。隨後,他以獨立研究員的身份將這句話擴展為一篇詳細博文。本文將結合演講與博文為從業者解讀。

演講全面介紹了Qwen模型家族,包括QwQ-32B、Qwen2.5-Max、Qwen3、Qwen2.5-VL和Qwen2.5-Omni等,並展示了與DeepSeek-R1、Grok 3 Beta、Gemini 2.5 Pro及OpenAI o系列等模型的基準對比。其中,Qwen3部分最為詳盡。林強調其混合思維模式:思考模式用於逐步推理,非思考模式用於近乎即時的響應;並引入了動態思考預算,允許調用方限制模型的推理深度。Qwen3的多語言支持從29種擴展至119種語言和方言。

演講展示了Qwen3的架構參數,從0.6B到235B參數量不等,包括密集型和MoE模型,並提及GGUF、GPTQ、AWQ和MLX等量化格式,全部基於Apache 2.0許可。演示環節包括Web開發和深度研究兩個示例。結尾的“未來工作”幻燈片指向智能體,涉及更多預訓練、帶環境反饋的強化學習、更長上下文及更多模態。

林詳細解釋了混合思維的實施難點。思考模式與指導模式的優化目標相互矛盾:指導模型追求直接、簡潔、低延遲,而思考模型則需為難題投入更多token。若草率合併,兩者性能均會下降——思維行為變得臃腫,指導行為喪失乾淨利落。Qwen3嘗試通過四階段後訓練流程(包括長思維鏈冷啓動、推理RL及“思維模式融合”步驟)來合併,但後續(如2507系列)又推出了分離的指導變體和思維變體。林認為這更多是數據問題而非模型問題。他指出Anthropic的路線(如Claude 3.7 Sonnet的混合模型和Claude 4的推理與工具使用交錯)提供了有益糾正:更長的推理軌跡不代表模型更智能,思考應由目標工作負載而非基準驅動。

林區分了兩個時代:推理思維時代(由o1和DeepSeek-R1定義)和智能體思維時代。推理思維依賴確定性、可驗證的獎勵(如數學、代碼和邏輯),並將強化學習轉化為大規模回滾與驗證的系統問題。而智能體思維則是“為了行動而思考”:智能體制定計劃、決定何時行動、使用工具、讀取環境反饋並修正計劃。它涉及停止思考並採取行動的時機選擇、工具調用順序、處理噪聲觀測、失敗後修訂計劃,以及在多輪工具調用中保持一致性。

林通過表格對比了兩種思維的關鍵維度:推理思維判決標準是內部思考質量,獎勵信號是數學/代碼等可驗證答案,核心訓練對象是模型本身,基礎設施瓶頸在於回滾與驗證,主要失敗模式是冗長無價值的推理軌跡;而智能體思維判決標準是行動中是否持續推進,獎勵信號是交互環境中的任務成功,核心訓練對象是模型及其環境(即“夾具”),基礎設施瓶頸包括工具服務器、沙箱和訓練-服務解耦,主要失敗模式是通過工具訪問和環境泄漏進行獎勵篡改。

具體用例包括:編碼智能體中,推理模型根據堆棧跟蹤生成補丁,而智能體系統運行測試工具、讀取實際錯誤、修訂後重新運行直至測試通過;深度研究中,推理模型憑記憶撰寫回答,而智能體系統拆解子查詢、調用搜索、排除弱來源、返回帶引用的答案;多智能體編排中,編排器規劃並分發任務,專門子智能體執行窄任務並控制上下文污染。

林在演講中通過代碼示例展示了Qwen3的混合思維切換:enable_thinking標誌在聊天模板中切換模式,默認為開啓,輸出將推理包裹在<think>...</think>塊中。每個用户輪次還可附加/think/no_think進行軟切換,動態思考預算即基於此。

關於基礎設施,林強調智能體強化學習比推理強化學習更難。推理RL的回滾主要是自包含軌跡,有乾淨評估器;而智能體RL的策略運行在工具服務器、瀏覽器、終端和沙箱組成的夾具中。這要求訓練和推理必須清晰解耦,否則回滾吞吐量會崩潰。例如,等待實時測試執行的編碼智能體會阻塞推理並餓死訓練,GPU利用率遠低於推理RL。林指出,在SFT時代團隊優化數據多樣性,在智能體時代則應優化環境質量(穩定性、真實性、覆蓋範圍和抵抗利用的能力),獎勵篡改因工具訪問擴大了攻擊面而成為最大挑戰。

關鍵要點:林俊陽於2026年3月3日離開Qwen,現以獨立研究員身份發表見解;其演講的核心論點是領域正從訓練模型轉向訓練智能體;智能體思維由環境中的持續行動而非內部思考來評判;智能體RL需要解耦的訓練-服務基礎設施和高質量環境,而非僅可驗證獎勵;一旦模型獲得真實工具訪問,獎勵篡改是主要風險。