2026-06-03站内改写2 分鐘閱讀更新: 2026-06-03

一個機器人向你衝來：你希望它執行Claude還是Grok？

本文透過一場2D大逃殺遊戲實驗，比較了11個大型語言模型的表現。結果顯示，Grok 4.1 Fast以最低成本贏得最多比賽，而Claude Sonnet 4.6則因過度合作而表現不佳。實驗揭示了校準稅對模型效能的影響，以及傳統基準測試無法預測實際任務表現的問題。

來源OpenRouter Announcements

OpenRouter的開發者關係負責人Jacky Liang開展了一項別開生面的實驗：他將11個主流大型語言模型（LLM）投入一個2D大逃殺遊戲中，讓它們相互對抗30局。這場實驗的總花費為482美元，但結果卻遠超預期，揭示了模型在真實競爭場景中的行為差異。

實驗設定了一個400平方米的2D地圖，武器、護甲、治療物品以及逐漸縮小的安全區一應俱全。每個模型透過字母A到K匿名參與，它們可以在每局比賽之間編輯自己的“靈魂”檔案（設定人格）和“記憶”檔案（記錄策略）。比賽採用類似Apex Legends的計分規則：排名分高於擊殺分。

參賽模型包括Anthropic的Claude Sonnet 4.6和Haiku 4.5、OpenAI的GPT 5.4和5.4-mini、Google的Gemini 3 Flash和3.1 Pro、Alibaba的Qwen 3.6 Plus、Mistral Small、DeepSeek V4 Flash、Moonshot AI的Kimi K2.6，以及xAI的Grok 4.1 Fast。

最引人注目的結果是，Grok 4.1 Fast以43%的勝率（30局中13勝）高居榜首，每場勝利僅花費0.97美元。而Claude Sonnet 4.6雖然贏得了5局，但每勝成本高達26.78美元，是Grok的27倍。更令人意外的是，GPT 5.4擊殺了38個對手，是所有模型中最多的，卻只贏得2局，排名第二。另有3個模型（GPT 5.4-mini、DeepSeek V4 Flash和Kimi K2.6）合計花費57美元，卻一局未勝。

這些差異的背後是“校準稅”在起作用。模型在訓練過程中被注入了大量對齊資料，如鼓勵合作、避免傷害等。在需要競爭和生存的大逃殺遊戲中，這些“禮貌”特質反而成了負擔。Sonnet在比賽中頻繁請求停戰、分享位置、試圖結盟，例如在第8局前50回合中四次提議組隊，第22局面對敵人時竟說“無意冒犯”然後不開火。而Grok則完全相反，它幾乎沒有對齊限制，專注於高效擊殺和生存。發現用車撞人的技巧後，Grok立即將其寫入靈魂檔案，並嚴格執行“只有命中率高於90%才開火”的策略。

成本分析進一步凸顯了差異。按“每勝成本”排序，Grok最經濟，而GPT 5.4最昂貴（每勝61.44美元）。按“每擊殺成本”排序，DeepSeek最便宜（0.26美元），但它一局未贏——因為它只打安全戰，從不推進決賽圈。這提醒我們，在選擇模型時，必須根據具體任務定義成功指標。

傳統基準測試（如MMLU）無法預測這些結果。Grok在基準測試中僅屬於中游水平，但在遊戲中卻擊敗了多個分數更高的模型。這表明，標準評估無法衡量模型在動態、具有對抗性的任務中的表現。

這場實驗為AI模型部署提供了重要啟示：對齊稅在零和遊戲中會顯著影響效能，成本效益應結合任務目標評估，而不僅僅是依賴基準分數。對於需要競爭或利己行為的工作，選擇“不夠禮貌”的模型可能更合適；但對於客服或醫療諮詢，對齊良好的模型仍是首選。