AI News HubLIVE
站内改写

アリババのQwen3.7-Max、コーディングベンチマークで世界2位に、Claudeに次ぐ

アリババの最新フラッグシップモデルQwen3.7-Maxが、権威あるCode Arenaリーダーボードで1541点を獲得し、GPT-5.5などのモデルを抑え、Claudeシリーズに次ぐ世界2位にランクインしました。

記事インテリジェンス

エンジニア上級

要点

  • Qwen3.7-MaxはCode Arenaで1541点を獲得し、Claudeに次ぐ世界2位。
  • Code Arenaは開発者が問題を出題し、ユーザーが匿名で評価するブラインドテストプラットフォーム。
  • このモデルは長時間タスクに優れ、35時間の連続稼働と1000回以上のツール呼び出しが可能。

重要な理由

このニュースが重要なのは、Qwen3.7-MaxはCode Arenaで1541点を獲得し、Claudeに次ぐ世界2位ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

アリババの最新フラッグシップAIモデルであるQwen3.7-Maxが、2026年5月26日に発表され、第三者によるコーディングベンチマーク「Code Arena」で世界2位を獲得しました。スコアは1541で、GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6などの主要モデルを上回り、AnthropicのClaudeシリーズに次ぐ結果です。

Code Arenaは、LMArenaが運営するブラインドテストプラットフォームで、最も信頼性の高いAIプログラミング能力評価の一つとされています。従来のベンチマークのようにコード断片やアルゴリズム問題を評価するのではなく、開発者が作成した課題に基づき、モデルがゼロから完全なインタラクティブWebアプリケーションを生成します。匿名化された出力はユーザー投票で比較され、総合ランキングが決定されます。Qwen3.7-Maxは、国産モデルとして初めて1540点の壁を突破し、Claudeモデルが長らく独占していたトップ4に割って入りました。

エージェント向けに設計されたQwen3.7-Maxは、プログラミング、エージェント推論、長期間タスク実行において大幅な進歩を遂げています。専門チームが2週間かかる複雑なプロジェクトを、わずか数時間で独立して完了できます。さらに、35時間の連続稼働と1000回以上のツール呼び出しが可能で、チップカーネルの自己最適化まで実現します。

このモデルは、開発者やAIクリエイターから高い評価を受けています。初期のユーザーからは「長期的な自律実行能力が印象的」「物事をやり遂げる真のエージェント基盤モデル」との声が上がっています。独立したAI機関が同一プロンプトでQwen3.7-Max、Claude-4.7、GPT-5.5を比較したところ、Qwen3.7-Maxは前世代からの性能向上が最も大きく、推論コストが最も低く、出力速度と生成品質の両方で明確な優位性を示しました。

この成果は、アリババのAIコード生成における急速な進歩を裏付け、Qwen3.7-MaxをグローバルAI競争の有力な候補として位置づけています。