QwenがQwen3.7-Maxを発表:100万トークンのコンテキストウィンドウを備えた推論エージェントモデル
アリババのQwenチームは2026年阿里雲サミットでQwen3.7-Maxを正式発表。100万トークンのコンテキストウィンドウと拡張思考モードを備え、コーディング、デバッグ、マルチステップワークフロー自動化などの長期間タスク向け。Artificial Analysis Intelligence Indexで56.6点を獲得し、プロプライエタリモデル中5位。
アリババのQwenチームは2026年5月20日、阿里雲サミットにてQwen3.7-Maxを正式に発表しました。このモデルは、長期的かつ多段階の自律実行を目的として設計された推論モデルです。発表に先立ち、Qwen3.7シリーズの2つのプレビューバージョンがArena AIのリーダーボードにひっそりと登場していましたが、プレスリリースや公式APIの告知はありませんでした。
2つのプレビューモデルが同時にリリースされました。Qwen3.7-Max-PreviewとQwen3.7-Plus-Previewです。LM Arenaによると、Qwen3.7-Max-Previewはテキスト能力で世界13位(ラボランク6位)、Qwen3.7-Plus-Previewは視覚能力で16位(ラボランク5位)でした。Qwen3.7-Plus-Previewは高性能バランス版プレビューと説明され、推論と論理表現に重点を置き、将来的にツールチェーンが段階的に開放される予定で、視覚・マルチモーダル入力に対応します。Qwen3.7-Maxはテキストのみの推論フラッグシップであり、アリババが正式にAPIアクセスを提供するモデルです。
Qwen3.7-Maxは、アリババのこれまでで最も先進的かつ包括的なエージェントモデルとされています。コーディング、デバッグ、オフィスワークフローの自動化、そして数百から数千ステップにわたる長期間タスクを処理できます。本モデルは拡張思考モードを採用し、最終回答を生成する前に内部の思考連鎖(チェーン・オブ・ソート)を生成して計画、確認、修正を行います。Qwen Chatなどのインターフェースでは、「思考」モードをオンにすることでモデルの推論過程を確認できます。推論モデルは標準補完に比べてはるかに多くの出力トークンを生成します。Artificial Analysisの評価では、Qwen3.7-Maxは約9700万トークンを生成したのに対し、ベンチマーク平均は2400万トークンでした。短いタスクでは遅延が増加しますが、多段階計画、コードリファクタリング、長いエージェントチェーンでは、拡張思考モードが真価を発揮します。
コンテキストウィンドウは100万トークンで、前世代のQwen3.6 Max Preview(256K)から4倍に拡大されました。入力と出力はテキストのみで、画像入力はサポートしません。価格は未発表ですが、参考までにQwen3.6 Max PreviewはAlibaba Cloudで入力100万トークンあたり1.30ドル、出力あたり7.80ドルでした。100万トークンのウィンドウは中型のコードベース全体や大量のドキュメントを一度に保持できますが、ウィンドウが満杯になると推論の信頼性が低下する可能性があり、Qwen3.7-Maxの長文脈テストはまだ独立して行われていません。
ベンチマークでは、Qwen3.7-MaxはArtificial Analysis Intelligence Indexで56.6点を獲得し、全体5位となりました。これは前世代のQwen3.6 Max Preview(51.8)から4.8点の向上であり、Google Gemini 3.5 Flash(55.3)を上回りますが、GPT-5.5(60.2)、Claude Opus 4.7(57.3)、Gemini 3.1 Pro Preview(57.2)には及びません。Index v4.0は10の評価を集約しており、GDPval-AA、Terminal-Bench Hard、SciCode、AA-Omniscience、Humanity's Last Exam、GPQA Diamondなどが含まれます。向上は科学推論、エージェント能力、コーディングに集中しています:CritPtは9.7ポイント上昇(3.7%から13.4%)、Humanity's Last Examは9.2ポイント上昇(28.9%から38.1%)、Terminal-Bench Hardは6.9ポイント上昇(43.9%から50.8%)。一方、AA-Omniscienceでは、生の精度が7.6ポイント低下(37.7%から30.1%)、幻覚率が21.3ポイント低下(44.2%から22.9%)しました。モデルは「わからない」と言う頻度が増え、試行率が67.3%から48.0%に低下し、これはフロンティアモデル中最低です。AA-Omniscienceは正答を報酬とし幻覚をペナルティとしますが、回答拒否に対するペナルティはありません。広範な事実想起に依存するユースケースでは、ワークロードに対してテストすべき重要な制限です。すべてのベンチマーク数値は暫定的であり、モデルはプレビュー段階です。
アリババの内部テストでは、Qwen3.7-Maxは新しいチッププラットフォーム上で1000回以上のツール呼び出しと反復的なコード変更を自律的に実行し、推論速度を前世代比で約10倍向上させたと主張しています。ただし、これらの主張は独立して検証されていません。
使用方法としては、開発者はQwen Chatインターフェースで無料でテストするか、Alibaba Cloud Model Studioを介してAPIにアクセスできます。APIはOpenAIおよびAnthropicの仕様と互換性があります。思考モードを有効にするには、extra_bodyでenable_thinking: trueを設定します。エージェントタスクでは、ツールを明確に定義し、100万トークンのコンテキストを活用して完全な履歴を渡し、最終回答をアサーションのターゲットにします。既知の制限として、画像入力非対応(マルチモーダルタスクにはQwen3.7-Plus-Previewを使用)、AA-Omniscienceでの高い棄権率、プレビュー状態による変更の可能性、長文脈の信頼性が独立検証されていない点があります。