AI News HubLIVE
站内改写2 分で読了

ロボットがあなたに向かって走ってくる:ClaudeとGrok、どちらを搭載しますか?

OpenRouterのJacky Liangが11の大規模言語モデルを2Dバトルロイヤルゲームに投入する実験を行った。Grok 4.1 Fastが43%の勝率で優勝し、1勝あたり0.97ドルと最もコスト効率が良かった。一方、Claude Sonnet 4.6は5勝したものの、1勝あたり26.78ドルとGrokの27.7倍のコストがかかり、アライメントコストの影響が明らかになった。

ロボットがあなたに向かって走ってきたら、AnthropicのClaudeとxAIのGrok、どちらを搭載したいだろうか?OpenRouterのDev Rel LeadであるJacky Liangが行ったユニークな実験が、意外な答えを導き出した。

Liangは11の大規模言語モデル(LLM)を2Dバトルロイヤルフィールドに投入し、30試合を自律的に戦わせた。結果、Grok 4.1 Fastが43%の勝率で優勝し、1勝あたりのコストは0.97ドルだった。一方、より人気の高いClaude Sonnet 4.6は5勝したものの、1勝あたりのコストは26.78ドルで、Grokの27.7倍もの差がついた。

この実験の着想は、Liangが過去に『Apex Legends』や『PUBG』に没頭していた経験に由来する。OpenRouterに入社後、同社の予算と600以上のモデルへのアクセスを活用し、400平方メートルの2Dマップを構築。各モデルは匿名でAからKの識別子を持ち、武器、アーマー、回復アイテム、車両、そして縮小する安全ゾーンの中で戦う。モデル同士は互いの正体を知らず、行動のみでやり取りする。

モデルの個性を引き出すため、Liangは各モデルにsoul.md(人格設定)とmemory.md(ゲームメモ)の2つの編集可能ファイルを与えた。モデルは試合の合間にこれらのファイルを自由に書き換え、独自の戦略を形成する。Grokは車両で敵を轢く戦術を素早く学習し、それをsoul.mdに書き込んで30試合中13勝を挙げた。その思考ログは「D reaped +5pts RAM MVP hunt」といった戦術的な略語で埋め尽くされている。一方、Claude Sonnetは顕著な協力行動を示し、度々休戦を求め、自らの位置を開示し、公開チャットで「Nothing personal E」と宣言しながらも攻撃を遅らせた。

Liangは、これが「アライメントコスト」の現れだと指摘する。Claudeは礼儀正しく専門的な文章で訓練され、RLHFによって協力的な応答が強化されているため、バトルロイヤルというゼロサムゲームにおいても協調本能から逃れられない。一方、GrokはxAIが「woke」なAIに対抗して設計したため、攻撃的な応答へのフィルターが少なく、自己チェックルールもなく、利己的なプレイにブレーキがかからない。

コスト効率の観点でも驚くべき結果が得られた。単純な勝率ではGrokがトップ、GPT 5.4が2位。しかし1勝あたりのコストではGrokが0.97ドルであるのに対し、GPT 5.4は61.44ドル。DeepSeek v4 Flashは1キルあたり0.26ドルと最も低コストだったが、慎重すぎて一度も勝利できなかった。GPT 5.4-mini、DeepSeek v4 Flash、Kimi K2.6の3モデルは合計57.15ドルを費やして0勝に終わった。

Liangは、アライメントそのものが悪いわけではないと強調する。協力や無害性が求められる実用的なアプリケーションではアライメントは不可欠だ。しかし、この実験は特定のタスクにおいてモデルのアライメント度合いも選択基準に含めるべきであることを示している。標準的なベンチマークではGrokの43%勝率を予測できなかった。なぜなら、それらは推論やコーディング能力を測るものであり、ゼロサムゲームにおける利己的な意思決定の巧拙を測るものではないからだ。

この実験は、AIモデル選択に新たな視点を提供する。性能だけでなく、コスト効率とタスク特性を考慮する必要がある。Liangは全試合の動画と各モデルのソウル・メモリファイルをGitHubで公開し、さらなる研究を呼びかけている。