2026-06-04站内改写2 分鐘閱讀更新: 2026-06-04

一個機器人向你衝來：你希望它搭載Claude還是Grok？

OpenRouter的Jacky Liang進行了一項實驗，將11個大型語言模型投入2D大逃殺遊戲，觀察它們的表現。Grok 4.1 Fast以43%的勝率奪冠，每場勝利僅花費0.97美元；而Claude Sonnet 4.6雖更受歡迎，但每勝成本高達26.78美元。實驗揭示了模型對齊成本對性能的影響，以及成本效益與原始勝率之間的巨大差異。

來源OpenRouter Announcements

如果你看到一個機器人向你衝來，你希望它搭載Anthropic的Claude還是xAI的Grok？OpenRouter開發者關係主管Jacky Liang通過一個獨特的實驗給出了令人意想不到的答案。

Liang將11個大型語言模型（LLM）放入一個2D大逃殺戰場，讓它們自主進行30場比賽。結果，Grok 4.1 Fast以43%的勝率奪冠，每場勝利成本僅為0.97美元。而相比之下，更受歡迎的Claude Sonnet 4.6雖然贏了5場，但每勝成本高達26.78美元，是Grok的27.7倍。

這個實驗的靈感來源於Liang過去玩《Apex Legends》和《絕地求生》的經歷。他加入OpenRouter後，利用公司提供的預算和600多個模型接口，設計了一個400平方米的2D遊戲地圖。每個模型以字母A到K匿名對戰，配備武器、護甲、治療道具和車輛，並有一個逐漸縮小的安全區迫使它們交鋒。模型之間不知道彼此的真實身份，只能通過遊戲內行動互動。

為了讓模型展現個性，Liang為每個模型提供了兩個可編輯文件：soul.md（人格設定）和memory.md（遊戲筆記）。模型可以在比賽間自由修改這些文件，從而形成獨特的策略。Grok迅速學會了用車撞擊敵人，並在後續比賽中堅持這一戰術，其思考日誌充滿了戰術縮略語，如“D reaped +5pts RAM MVP hunt”。而Claude Sonnet則表現出了強烈的合作傾向，多次請求休戰、分享位置，甚至在公開場合宣稱“Nothing personal E”後遲遲不開火。

Liang指出，這一現象驗證了“對齊成本”的存在：Claude經過大量禮貌、專業的訓練和人類反饋強化學習（RLHF），即使在大逃殺中也無法擺脱合作本能。而Grok的設計初衷就是反對所謂的“覺醒AI”，過濾較少，缺乏自我檢查規則，因此更適應零和遊戲。

實驗還揭示了成本效益的驚人差異。如果單純看勝場，Grok第一，GPT 5.4第二。但若計算每勝成本，Grok僅0.97美元，而GPT 5.4高達61.44美元。DeepSeek v4 Flash儘管每擊殺成本最低（0.26美元），但由於過於謹慎，從未獲勝。GPT 5.4-mini、DeepSeek v4 Flash和Kimi K2.6三個模型共花費57.15美元，卻一局未贏。

Liang強調，這並非意味着對齊本身不好。在需要幫助、合作的實際應用中，對齊至關重要。但實驗表明，對於某些特定任務，模型的對齊程度應成為選擇因素之一。目前的標準基準測試無法預測Grok的驚人表現，因為它衡量的是推理和編碼能力，而非在零和博弈中的自私決策能力。

這一實驗為AI模型的選擇提供了新視角：在考慮性能的同時，還需關注成本效益和任務特性。Liang已將全部比賽錄像和模型的靈魂與記憶文件公開發布，供更多研究者探索。