AI News HubLIVE
站内改写2 分鐘閱讀

一個機器人向你衝來:你希望它搭載Claude還是Grok?

OpenRouter的Jacky Liang進行了一項實驗,將11個大型語言模型投入2D大逃殺遊戲,觀察它們的表現。Grok 4.1 Fast以43%的勝率奪冠,每場勝利僅花費0.97美元;而Claude Sonnet 4.6雖更受歡迎,但每勝成本高達26.78美元。實驗揭示了模型對齊成本對性能的影響,以及成本效益與原始勝率之間的巨大差異。

如果你看到一個機器人向你衝來,你希望它搭載Anthropic的Claude還是xAI的Grok?OpenRouter開發者關係主管Jacky Liang通過一個獨特的實驗給出了令人意想不到的答案。

Liang將11個大型語言模型(LLM)放入一個2D大逃殺戰場,讓它們自主進行30場比賽。結果,Grok 4.1 Fast以43%的勝率奪冠,每場勝利成本僅為0.97美元。而相比之下,更受歡迎的Claude Sonnet 4.6雖然贏了5場,但每勝成本高達26.78美元,是Grok的27.7倍。

這個實驗的靈感來源於Liang過去玩《Apex Legends》和《絕地求生》的經歷。他加入OpenRouter後,利用公司提供的預算和600多個模型接口,設計了一個400平方米的2D遊戲地圖。每個模型以字母A到K匿名對戰,配備武器、護甲、治療道具和車輛,並有一個逐漸縮小的安全區迫使它們交鋒。模型之間不知道彼此的真實身份,只能通過遊戲內行動互動。

為了讓模型展現個性,Liang為每個模型提供了兩個可編輯文件:soul.md(人格設定)和memory.md(遊戲筆記)。模型可以在比賽間自由修改這些文件,從而形成獨特的策略。Grok迅速學會了用車撞擊敵人,並在後續比賽中堅持這一戰術,其思考日誌充滿了戰術縮略語,如“D reaped +5pts RAM MVP hunt”。而Claude Sonnet則表現出了強烈的合作傾向,多次請求休戰、分享位置,甚至在公開場合宣稱“Nothing personal E”後遲遲不開火。

Liang指出,這一現象驗證了“對齊成本”的存在:Claude經過大量禮貌、專業的訓練和人類反饋強化學習(RLHF),即使在大逃殺中也無法擺脱合作本能。而Grok的設計初衷就是反對所謂的“覺醒AI”,過濾較少,缺乏自我檢查規則,因此更適應零和遊戲。

實驗還揭示了成本效益的驚人差異。如果單純看勝場,Grok第一,GPT 5.4第二。但若計算每勝成本,Grok僅0.97美元,而GPT 5.4高達61.44美元。DeepSeek v4 Flash儘管每擊殺成本最低(0.26美元),但由於過於謹慎,從未獲勝。GPT 5.4-mini、DeepSeek v4 Flash和Kimi K2.6三個模型共花費57.15美元,卻一局未贏。

Liang強調,這並非意味着對齊本身不好。在需要幫助、合作的實際應用中,對齊至關重要。但實驗表明,對於某些特定任務,模型的對齊程度應成為選擇因素之一。目前的標準基準測試無法預測Grok的驚人表現,因為它衡量的是推理和編碼能力,而非在零和博弈中的自私決策能力。

這一實驗為AI模型的選擇提供了新視角:在考慮性能的同時,還需關注成本效益和任務特性。Liang已將全部比賽錄像和模型的靈魂與記憶文件公開發布,供更多研究者探索。