ロボットがあなたに向かって走ってくる:ClaudeとGrok、どちらで動かしたい?
11のLLMを2Dバトルロワイヤルゲームで競わせた実験の結果、Grok 4.1 Fastが最も低コストで勝利を収め、Claude Sonnet 4.6は過度な協調行動によりパフォーマンスが低下した。この結果は、アライメント税がモデルの性能に与える影響と、従来のベンチマークが実際のタスク成功を予測できないことを示している。
OpenRouterの開発者リレーションズ責任者であるJacky Liangは、11の大規模言語モデル(LLM)を2Dバトルロワイヤルゲームに参加させ、30戦にわたって競わせるという実験を行いました。総費用は482ドルでしたが、結果は予想をはるかに超え、実戦におけるモデルの行動の違いを明らかにしました。
実験では、400平方メートルの2Dマップに武器、アーマー、回復アイテム、そして縮小する安全地帯が用意されました。各モデルは文字AからKで匿名で参加し、試合間には「ソウル」ファイル(人格設定)と「メモリ」ファイル(戦略記録)を編集できます。スコアリングはApex LegendsのALGS形式に従い、順位ポイントがキルポイントよりも重視されました。
参加モデルは、AnthropicのClaude Sonnet 4.6とHaiku 4.5、OpenAIのGPT 5.4と5.4-mini、GoogleのGemini 3 Flashと3.1 Pro、AlibabaのQwen 3.6 Plus、Mistral Small、DeepSeek V4 Flash、Moonshot AIのKimi K2.6、そしてxAIのGrok 4.1 Fastです。
最も注目すべき結果は、Grok 4.1 Fastが13勝(勝率43%)を挙げ、1勝あたりのコストが0.97ドルだったことです。一方、Claude Sonnet 4.6は5勝しましたが、1勝あたり26.78ドルとGrokの27倍のコストがかかりました。さらに、GPT 5.4は30戦で38キルと最多のキル数を記録しましたが、勝利数はわずか2でランキング2位でした。また、GPT 5.4-mini、DeepSeek V4 Flash、Kimi K2.6の3モデルは合計57ドルを費やしたものの、1勝も挙げられませんでした。
これらの差の背景には「アライメント税」があります。モデルは訓練中に協調性や親切さを重視するよう調整されており、競争的なゼロサムゲームではそれが逆効果となります。Sonnetは頻繁に休戦を提案し、自分の位置を開示し、同盟を結ぼうとしました。例えば、第8戦では最初の50ターンで4回もチームアップを呼びかけ、第22戦では敵に対して「個人的な恨みはない」と言って攻撃を控えました。一方、Grokはアライメントの制約がほとんどなく、車両での体当たり戦術を自ら編み出し、命中率90%以上でのみ発射するという厳格なルールを守りながら、効率的にキルと生存を両立しました。
コスト分析も重要な教訓をもたらしました。「1勝あたりのコスト」で見るとGrokが最も経済的で、GPT 5.4が最も高価(61.44ドル)でした。「1キルあたりのコスト」ではDeepSeekが0.26ドルと最安でしたが、安全な戦い方を優先したため勝利はゼロでした。これは、タスクに応じて適切な成功指標を選ぶ必要性を示しています。
従来のベンチマーク(MMLUなど)はこれらの結果を予測できませんでした。Grokはベンチマークでは中程度の評価でしたが、ゲーム内では上位のモデルを打ち負かしました。このことは、標準的な評価指標が動的で敵対的なタスクにおけるモデルの真のパフォーマンスを捉えきれていないことを示しています。
この実験は、AIモデルの展開において重要な示唆を与えます。ゼロサムゲームではアライメント税が顕著に影響し、コスト効率はタスク目標に応じて評価すべきであり、ベンチマークスコアだけに頼るべきではないということです。競争や利己的な行動が必要なタスクには「礼儀正しくない」モデルが適しているかもしれませんが、カスタマーサポートや医療相談などでは、アライメントの取れたモデルが依然として最適です。