2026-05-21站内改写2 分鐘閱讀更新: 2026-06-12

Qwen推出Qwen3.7-Max：具有100萬Token上下文視窗的推理智慧體模型

阿里巴巴Qwen團隊在2026阿里雲峰會上正式釋出Qwen3.7-Max，這是其迄今最先進的智慧體模型，擁有100萬Token上下文視窗和擴充套件思考模式，專為長週期任務如編碼、除錯和多步驟工作流自動化設計。在Artificial Analysis Intelligence Index上得分為56.6，在專有模型中排名第五。

來源MarkTechPost作者: Asif Razzaq

阿里巴巴Qwen團隊在2026年5月20日的阿里雲峰會上正式宣佈推出Qwen3.7-Max，這是一款專為長時間、多步驟自主執行而設計的推理模型。在此之前，Qwen3.7系列的兩個預覽版本已悄然出現在Arena AI排行榜上，但並未釋出新聞稿或正式API。

兩個預覽版本同時釋出：Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview。在LM Arena上，Qwen3.7-Max-Preview在文本能力方面全球排名第13，使阿里巴巴成為實驗室排名第6；Qwen3.7-Plus-Preview在視覺能力方面排名第16，實驗室排名第5。Qwen3.7-Plus-Preview被描述為高效能平衡版本，專注於推理和邏輯表達，未來將逐步開放工具鏈，支援視覺和多模態輸入。而Qwen3.7-Max是純文本推理旗艦，也是阿里巴巴正式提供API訪問的模型。

Qwen3.7-Max被描述為阿里巴巴迄今最先進、最全面的智慧體模型，專為處理編碼、除錯、辦公工作流自動化以及涉及數百甚至數千步驟的長期任務而設計。該模型採用擴充套件思考模式，在給出最終答案前會生成內部思維鏈序列，進行規劃、檢查和工作修正。在Qwen Chat等介面上，使用者可開啟“思考”模式以檢視推理過程。值得注意的是，推理模型產生的輸出tokens遠多於標準補全：Artificial Analysis評估中，Qwen3.7-Max生成了約9700萬tokens，而基準平均為2400萬。對於短任務，這會增加延遲，但對於多步驟規劃、程式碼重構或長智慧體鏈，擴充套件思考模式正是其優勢所在。

該模型擁有100萬Token的上下文視窗，是此前Qwen3.6 Max Preview（256K）的四倍。定價尚未公佈，但Qwen3.6 Max Preview的定價為每百萬輸入/輸出tokens 1.30/7.80美元。百萬級的上下文視窗可容納完整的中型程式碼庫或大量文件，但模型在視窗填滿時推理可靠性可能下降，目前尚無獨立的Qwen3.7-Max長上下文測試結果。

基準測試方面，Qwen3.7-Max在Artificial Analysis Intelligence Index上得分為56.6，排名第五。相比前代Qwen3.6 Max Preview（51.8）提升4.8分，超越Google Gemini 3.5 Flash（55.3），但仍落後於GPT-5.5（60.2）、Claude Opus 4.7（57.3）和Gemini 3.1 Pro Preview（57.2）。Index v4.0彙總了十項評估，包括GDPval-AA、Terminal-Bench Hard、SciCode、AA-Omniscience、Humanity's Last Exam和GPQA Diamond。提升並不均勻，主要集中在科學推理、智慧體能力和編碼領域：CritPt上升9.7個百分點（從3.7%到13.4%），Humanity's Last Exam躍升9.2（從28.9%到38.1%），Terminal-Bench Hard上升6.9（從43.9%到50.8%）。但在AA-Omniscience上，原始準確率反而下降7.6個百分點（從37.7%到30.1%），而幻覺率下降21.3點（從44.2%到22.9%）。模型更傾向於說“不知道”，嘗試率從67.3%降到48.0%，為前沿模型中最低。對於依賴廣泛事實回憶的用例，這是一個需要測試的重要侷限性。所有基準資料均為初步結果，模型仍處於預覽階段。

在阿里巴巴內部測試中，Qwen3.7-Max在一個新晶片平臺上自主執行了超過1000次工具呼叫和迭代程式碼修改以最佳化關鍵核心，聲稱推理速度相比前代提升約10倍，但尚未經獨立驗證。

使用方面，開發者可透過Qwen Chat介面免費測試，或透過Alibaba Cloud Model Studio的API訪問，相容OpenAI和Anthropic API規範。啟用思考模式需在extra_body中設定enable_thinking: true。對於智慧體任務，需明確定義工具，利用100萬Token上下文傳遞完整歷史記錄，並以最終答案為斷言目標。已知侷限性包括：不支援影像輸入（應由Qwen3.7-Plus-Preview處理）、AA-Omniscience基準中的高棄權率、預覽狀態可能變化、以及長上下文可靠性尚未獨立驗證。