2026-05-26 13:32 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

編程權威榜單：千問3.7僅次於Claude，阿里全球第二

阿里最新旗艦模型Qwen3.7-Max在Code Arena榜單得分1541，超越GPT-5.5等模型，僅次於Claude，排名全球第二，成為國產大模型中首個突破1540分的模型。

來源量子位作者: 量子位的朋友们

編程權威榜單：千問3.7僅次於Claude，阿里全球第二 – 量子位

量子位的朋友們 2026-05-26 13:32:12

來源：量子位

躋身全球編程模型第一梯隊

5月26日凌晨，全球權威三方編程榜單Code Arena放榜，阿里最新旗艦模型Qwen3.7-Max得分1541，超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一眾模型，僅次於Claude系列，在大模型廠商中排名全球第二，這也標誌着在代碼理解與生成領域，千問3.7成功躋身全球編程模型第一梯隊。

圖説：Code Arena榜單顯示，憑藉Qwen3.7-Max，阿里位列全球第二

編程能力是當下模型智能水平的核心指標，而Code Arena是由知名第三方大模型盲測平台LMArena推出的最具影響力的榜單之一。與傳統的代碼基準測試不同，Code Arena並不考核孤立的代碼片段生成或傳統算法題，而是由開發者出題，要求模型從零生成完整的、可交互的Web應用程序，並交由用户對匿名模型的生成效果進行兩兩PK，由投票綜合生成榜單，因此Code Arena也被認為是目前全球最具公信力的AI編程能力評測之一。經全球開發者以真實使用體驗盲測投票，千問3.7模型編程能力位居前4，打破由Claude-Opus-4.7和4.6統治已久的前四格局，Qwen3.7-Max也成為目前榜單中唯一突破1540分大關的國產大模型。

據瞭解，面向Agent打造的Qwen3.7-Max在編程、智能體、長程任務等核心能力上實現了大幅突破，不但能在數小時內獨立完成專業團隊耗時2周的複雜項目端到端交付，大幅提升辦公自動化和企業級生產力，甚至可以持續運行35小時、累計超1000次工具調用的複雜長程任務，自我編程優化芯片內核。

Qwen3.7-Max發佈後迅速在全球引發強烈反響。大量獨立開發者、AI創作者、企業用户第一時間在社交媒體上分享了測評結果：多位開發者評價其”長程自主執行能力令人印象深刻””是真正能把事情做完的智能體基座模型”；有AI機構在相同提示詞下同步橫評了Qwen3.7-Max、Claude-4.7與GPT-5.5，發現千問3.7較上代的性能提升幅度最大、推理成本最低，在輸出速度和生成質量兩個維度上相較其他模型均有明顯優勢。

來源：阿里雲。

Qwen3.7

量子位的朋友們

打造創投生態的超級樞紐， 2026投資界SuperLink大會定檔6月2026-05-25

螞蟻靈波LingBot-VA論文被機器人頂會RSS 2026接收，讓機器人邊推演、邊行動2026-05-25

Claude 通過率不到4%，SaaS-Bench撕碎了Computer-Use的「全自動辦公」幻想2026-05-25

美團外賣前負責人入局餐飲具身模型，元節智能獲千萬級種子輪融資2026-05-23