AI News HubLIVE
站内改写

程式設計權威榜單:千問3.7僅次於Claude,阿里全球第二

阿里最新旗艦模型Qwen3.7-Max在Code Arena榜單得分1541,超越GPT-5.5等模型,僅次於Claude,排名全球第二,成為國產大模型中首個突破1540分的模型。

文章情報

工程師進階

要點

  • Qwen3.7-Max在Code Arena榜單得分1541,排名全球第二,僅次於Claude系列。
  • Code Arena是開發者出題、使用者盲測投票的權威程式設計榜單。
  • 該模型在程式設計、智慧體和長程任務上實現大幅突破,可獨立完成複雜專案。

為什麼重要

這條新聞值得關注,因為Qwen3.7-Max在Code Arena榜單得分1541,排名全球第二,僅次於Claude系列。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

程式設計權威榜單:千問3.7僅次於Claude,阿里全球第二 – 量子位

程式設計權威榜單:千問3.7僅次於Claude,阿里全球第二

量子位的朋友們 2026-05-26 13:32:12

來源:量子位

躋身全球程式設計模型第一梯隊

5月26日凌晨,全球權威三方程式設計榜單Code Arena放榜,阿里最新旗艦模型Qwen3.7-Max得分1541,超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一眾模型,僅次於Claude系列,在大模型廠商中排名全球第二,這也標誌著在程式碼理解與生成領域,千問3.7成功躋身全球程式設計模型第一梯隊。

圖說:Code Arena榜單顯示,憑藉Qwen3.7-Max,阿里位列全球第二

程式設計能力是當下模型智慧水平的核心指標,而Code Arena是由知名第三方大模型盲測平臺LMArena推出的最具影響力的榜單之一。與傳統的程式碼基準測試不同,Code Arena並不考核孤立的程式碼片段生成或傳統演算法題,而是由開發者出題,要求模型從零生成完整的、可互動的Web應用程式,並交由使用者對匿名模型的生成效果進行兩兩PK,由投票綜合生成榜單,因此Code Arena也被認為是目前全球最具公信力的AI程式設計能力評測之一。經全球開發者以真實使用體驗盲測投票,千問3.7模型程式設計能力位居前4,打破由Claude-Opus-4.7和4.6統治已久的前四格局,Qwen3.7-Max也成為目前榜單中唯一突破1540分大關的國產大模型。

據瞭解,面向Agent打造的Qwen3.7-Max在程式設計、智慧體、長程任務等核心能力上實現了大幅突破,不但能在數小時內獨立完成專業團隊耗時2周的複雜專案端到端交付,大幅提升辦公自動化和企業級生產力,甚至可以持續執行35小時、累計超1000次工具呼叫的複雜長程任務,自我程式設計最佳化晶片核心。

Qwen3.7-Max釋出後迅速在全球引發強烈反響。大量獨立開發者、AI創作者、企業使用者第一時間在社交媒體上分享了測評結果:多位開發者評價其”長程自主執行能力令人印象深刻””是真正能把事情做完的智慧體基座模型”;有AI機構在相同提示詞下同步橫評了Qwen3.7-Max、Claude-4.7與GPT-5.5,發現千問3.7較上代的效能提升幅度最大、推理成本最低,在輸出速度和生成質量兩個維度上相較其他模型均有明顯優勢。

來源:阿里雲。

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

Qwen3.7

量子位的朋友們

打造創投生態的超級樞紐, 2026投資界SuperLink大會定檔6月2026-05-25

螞蟻靈波LingBot-VA論文被機器人頂會RSS 2026接收,讓機器人邊推演、邊行動2026-05-25

Claude 透過率不到4%,SaaS-Bench撕碎了Computer-Use的「全自動辦公」幻想2026-05-25

美團外賣前負責人入局餐飲具身模型,元節智慧獲千萬級種子輪融資2026-05-23

熱門文章

菲爾茲獎得主都看懵了:OpenAI非數學模型首次自主突破80年未解數學難題

2026-05-21

智象未來超兩千億引數影像大模型HiDream-O1-Image-Pro釋出,融資持續提速

2026-05-20

太初元碁洪源:異構計算能力將成為未來AI算力基礎設施的重要方向|AIGC2026

2026-05-20

騰訊混元開源全新翻譯模型Hy-MT2 ,上線小程式「騰訊Hy翻譯」

2026-05-21

Artificial Analysis放榜:千問3.7問鼎國產模型冠軍,全球前五

2026-05-21

掃碼關注量子位

量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1