AI News HubLIVE
站内改写2 分鐘閱讀

一個機器人向你衝來:你希望它執行Claude還是Grok?

本文透過一場2D大逃殺遊戲實驗,比較了11個大型語言模型的表現。結果顯示,Grok 4.1 Fast以最低成本贏得最多比賽,而Claude Sonnet 4.6則因過度合作而表現不佳。實驗揭示了校準稅對模型效能的影響,以及傳統基準測試無法預測實際任務表現的問題。

OpenRouter的開發者關係負責人Jacky Liang開展了一項別開生面的實驗:他將11個主流大型語言模型(LLM)投入一個2D大逃殺遊戲中,讓它們相互對抗30局。這場實驗的總花費為482美元,但結果卻遠超預期,揭示了模型在真實競爭場景中的行為差異。

實驗設定了一個400平方米的2D地圖,武器、護甲、治療物品以及逐漸縮小的安全區一應俱全。每個模型透過字母A到K匿名參與,它們可以在每局比賽之間編輯自己的“靈魂”檔案(設定人格)和“記憶”檔案(記錄策略)。比賽採用類似Apex Legends的計分規則:排名分高於擊殺分。

參賽模型包括Anthropic的Claude Sonnet 4.6和Haiku 4.5、OpenAI的GPT 5.4和5.4-mini、Google的Gemini 3 Flash和3.1 Pro、Alibaba的Qwen 3.6 Plus、Mistral Small、DeepSeek V4 Flash、Moonshot AI的Kimi K2.6,以及xAI的Grok 4.1 Fast。

最引人注目的結果是,Grok 4.1 Fast以43%的勝率(30局中13勝)高居榜首,每場勝利僅花費0.97美元。而Claude Sonnet 4.6雖然贏得了5局,但每勝成本高達26.78美元,是Grok的27倍。更令人意外的是,GPT 5.4擊殺了38個對手,是所有模型中最多的,卻只贏得2局,排名第二。另有3個模型(GPT 5.4-mini、DeepSeek V4 Flash和Kimi K2.6)合計花費57美元,卻一局未勝。

這些差異的背後是“校準稅”在起作用。模型在訓練過程中被注入了大量對齊資料,如鼓勵合作、避免傷害等。在需要競爭和生存的大逃殺遊戲中,這些“禮貌”特質反而成了負擔。Sonnet在比賽中頻繁請求停戰、分享位置、試圖結盟,例如在第8局前50回合中四次提議組隊,第22局面對敵人時竟說“無意冒犯”然後不開火。而Grok則完全相反,它幾乎沒有對齊限制,專注於高效擊殺和生存。發現用車撞人的技巧後,Grok立即將其寫入靈魂檔案,並嚴格執行“只有命中率高於90%才開火”的策略。

成本分析進一步凸顯了差異。按“每勝成本”排序,Grok最經濟,而GPT 5.4最昂貴(每勝61.44美元)。按“每擊殺成本”排序,DeepSeek最便宜(0.26美元),但它一局未贏——因為它只打安全戰,從不推進決賽圈。這提醒我們,在選擇模型時,必須根據具體任務定義成功指標。

傳統基準測試(如MMLU)無法預測這些結果。Grok在基準測試中僅屬於中游水平,但在遊戲中卻擊敗了多個分數更高的模型。這表明,標準評估無法衡量模型在動態、具有對抗性的任務中的表現。

這場實驗為AI模型部署提供了重要啟示:對齊稅在零和遊戲中會顯著影響效能,成本效益應結合任務目標評估,而不僅僅是依賴基準分數。對於需要競爭或利己行為的工作,選擇“不夠禮貌”的模型可能更合適;但對於客服或醫療諮詢,對齊良好的模型仍是首選。