Qwen推出Qwen3.7-Max:具有100萬Token上下文視窗的推理智慧體模型
阿里巴巴Qwen團隊在2026阿里雲峰會上正式釋出Qwen3.7-Max,這是其迄今最先進的智慧體模型,擁有100萬Token上下文視窗和擴充套件思考模式,專為長週期任務如編碼、除錯和多步驟工作流自動化設計。在Artificial Analysis Intelligence Index上得分為56.6,在專有模型中排名第五。
阿里巴巴Qwen團隊在2026年5月20日的阿里雲峰會上正式宣佈推出Qwen3.7-Max,這是一款專為長時間、多步驟自主執行而設計的推理模型。在此之前,Qwen3.7系列的兩個預覽版本已悄然出現在Arena AI排行榜上,但並未釋出新聞稿或正式API。
兩個預覽版本同時釋出:Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview。在LM Arena上,Qwen3.7-Max-Preview在文本能力方面全球排名第13,使阿里巴巴成為實驗室排名第6;Qwen3.7-Plus-Preview在視覺能力方面排名第16,實驗室排名第5。Qwen3.7-Plus-Preview被描述為高效能平衡版本,專注於推理和邏輯表達,未來將逐步開放工具鏈,支援視覺和多模態輸入。而Qwen3.7-Max是純文本推理旗艦,也是阿里巴巴正式提供API訪問的模型。
Qwen3.7-Max被描述為阿里巴巴迄今最先進、最全面的智慧體模型,專為處理編碼、除錯、辦公工作流自動化以及涉及數百甚至數千步驟的長期任務而設計。該模型採用擴充套件思考模式,在給出最終答案前會生成內部思維鏈序列,進行規劃、檢查和工作修正。在Qwen Chat等介面上,使用者可開啟“思考”模式以檢視推理過程。值得注意的是,推理模型產生的輸出tokens遠多於標準補全:Artificial Analysis評估中,Qwen3.7-Max生成了約9700萬tokens,而基準平均為2400萬。對於短任務,這會增加延遲,但對於多步驟規劃、程式碼重構或長智慧體鏈,擴充套件思考模式正是其優勢所在。
該模型擁有100萬Token的上下文視窗,是此前Qwen3.6 Max Preview(256K)的四倍。定價尚未公佈,但Qwen3.6 Max Preview的定價為每百萬輸入/輸出tokens 1.30/7.80美元。百萬級的上下文視窗可容納完整的中型程式碼庫或大量文件,但模型在視窗填滿時推理可靠性可能下降,目前尚無獨立的Qwen3.7-Max長上下文測試結果。
基準測試方面,Qwen3.7-Max在Artificial Analysis Intelligence Index上得分為56.6,排名第五。相比前代Qwen3.6 Max Preview(51.8)提升4.8分,超越Google Gemini 3.5 Flash(55.3),但仍落後於GPT-5.5(60.2)、Claude Opus 4.7(57.3)和Gemini 3.1 Pro Preview(57.2)。Index v4.0彙總了十項評估,包括GDPval-AA、Terminal-Bench Hard、SciCode、AA-Omniscience、Humanity's Last Exam和GPQA Diamond。提升並不均勻,主要集中在科學推理、智慧體能力和編碼領域:CritPt上升9.7個百分點(從3.7%到13.4%),Humanity's Last Exam躍升9.2(從28.9%到38.1%),Terminal-Bench Hard上升6.9(從43.9%到50.8%)。但在AA-Omniscience上,原始準確率反而下降7.6個百分點(從37.7%到30.1%),而幻覺率下降21.3點(從44.2%到22.9%)。模型更傾向於說“不知道”,嘗試率從67.3%降到48.0%,為前沿模型中最低。對於依賴廣泛事實回憶的用例,這是一個需要測試的重要侷限性。所有基準資料均為初步結果,模型仍處於預覽階段。
在阿里巴巴內部測試中,Qwen3.7-Max在一個新晶片平臺上自主執行了超過1000次工具呼叫和迭代程式碼修改以最佳化關鍵核心,聲稱推理速度相比前代提升約10倍,但尚未經獨立驗證。
使用方面,開發者可透過Qwen Chat介面免費測試,或透過Alibaba Cloud Model Studio的API訪問,相容OpenAI和Anthropic API規範。啟用思考模式需在extra_body中設定enable_thinking: true。對於智慧體任務,需明確定義工具,利用100萬Token上下文傳遞完整歷史記錄,並以最終答案為斷言目標。已知侷限性包括:不支援影像輸入(應由Qwen3.7-Plus-Preview處理)、AA-Omniscience基準中的高棄權率、預覽狀態可能變化、以及長上下文可靠性尚未獨立驗證。