アリババのQwen3.7-Max、コーディングベンチマークで世界2位に、Claudeに次ぐ
アリババの最新フラッグシップモデルQwen3.7-Maxが、権威あるCode Arenaリーダーボードで1541点を獲得し、GPT-5.5などのモデルを抑え、Claudeシリーズに次ぐ世界2位にランクインしました。
記事インテリジェンス
要点
- Qwen3.7-MaxはCode Arenaで1541点を獲得し、Claudeに次ぐ世界2位。
- Code Arenaは開発者が問題を出題し、ユーザーが匿名で評価するブラインドテストプラットフォーム。
- このモデルは長時間タスクに優れ、35時間の連続稼働と1000回以上のツール呼び出しが可能。
重要な理由
このニュースが重要なのは、Qwen3.7-MaxはCode Arenaで1541点を獲得し、Claudeに次ぐ世界2位ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
アリババの最新フラッグシップAIモデルであるQwen3.7-Maxが、2026年5月26日に発表され、第三者によるコーディングベンチマーク「Code Arena」で世界2位を獲得しました。スコアは1541で、GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6などの主要モデルを上回り、AnthropicのClaudeシリーズに次ぐ結果です。
Code Arenaは、LMArenaが運営するブラインドテストプラットフォームで、最も信頼性の高いAIプログラミング能力評価の一つとされています。従来のベンチマークのようにコード断片やアルゴリズム問題を評価するのではなく、開発者が作成した課題に基づき、モデルがゼロから完全なインタラクティブWebアプリケーションを生成します。匿名化された出力はユーザー投票で比較され、総合ランキングが決定されます。Qwen3.7-Maxは、国産モデルとして初めて1540点の壁を突破し、Claudeモデルが長らく独占していたトップ4に割って入りました。
エージェント向けに設計されたQwen3.7-Maxは、プログラミング、エージェント推論、長期間タスク実行において大幅な進歩を遂げています。専門チームが2週間かかる複雑なプロジェクトを、わずか数時間で独立して完了できます。さらに、35時間の連続稼働と1000回以上のツール呼び出しが可能で、チップカーネルの自己最適化まで実現します。
このモデルは、開発者やAIクリエイターから高い評価を受けています。初期のユーザーからは「長期的な自律実行能力が印象的」「物事をやり遂げる真のエージェント基盤モデル」との声が上がっています。独立したAI機関が同一プロンプトでQwen3.7-Max、Claude-4.7、GPT-5.5を比較したところ、Qwen3.7-Maxは前世代からの性能向上が最も大きく、推論コストが最も低く、出力速度と生成品質の両方で明確な優位性を示しました。
この成果は、アリババのAIコード生成における急速な進歩を裏付け、Qwen3.7-MaxをグローバルAI競争の有力な候補として位置づけています。