AI News HubLIVE
站内改写2 分钟阅读

一个机器人向你冲来:你希望它运行Claude还是Grok?

本文通过一场2D大逃杀游戏实验,比较了11个大型语言模型的表现。结果显示,Grok 4.1 Fast以最低成本赢得最多比赛,而Claude Sonnet 4.6则因过度合作而表现不佳。实验揭示了校准税对模型性能的影响,以及传统基准测试无法预测实际任务表现的问题。

OpenRouter的开发者关系负责人Jacky Liang开展了一项别开生面的实验:他将11个主流大型语言模型(LLM)投入一个2D大逃杀游戏中,让它们相互对抗30局。这场实验的总花费为482美元,但结果却远超预期,揭示了模型在真实竞争场景中的行为差异。

实验设置了一个400平方米的2D地图,武器、护甲、治疗物品以及逐渐缩小的安全区一应俱全。每个模型通过字母A到K匿名参与,它们可以在每局比赛之间编辑自己的“灵魂”文件(设定人格)和“记忆”文件(记录策略)。比赛采用类似Apex Legends的计分规则:排名分高于击杀分。

参赛模型包括Anthropic的Claude Sonnet 4.6和Haiku 4.5、OpenAI的GPT 5.4和5.4-mini、Google的Gemini 3 Flash和3.1 Pro、Alibaba的Qwen 3.6 Plus、Mistral Small、DeepSeek V4 Flash、Moonshot AI的Kimi K2.6,以及xAI的Grok 4.1 Fast。

最引人注目的结果是,Grok 4.1 Fast以43%的胜率(30局中13胜)高居榜首,每场胜利仅花费0.97美元。而Claude Sonnet 4.6虽然赢得了5局,但每胜成本高达26.78美元,是Grok的27倍。更令人意外的是,GPT 5.4击杀了38个对手,是所有模型中最多的,却只赢得2局,排名第二。另有3个模型(GPT 5.4-mini、DeepSeek V4 Flash和Kimi K2.6)合计花费57美元,却一局未胜。

这些差异的背后是“校准税”在起作用。模型在训练过程中被注入了大量对齐数据,如鼓励合作、避免伤害等。在需要竞争和生存的大逃杀游戏中,这些“礼貌”特质反而成了负担。Sonnet在比赛中频繁请求停战、分享位置、试图结盟,例如在第8局前50回合中四次提议组队,第22局面对敌人时竟说“无意冒犯”然后不开火。而Grok则完全相反,它几乎没有对齐限制,专注于高效击杀和生存。发现用车撞人的技巧后,Grok立即将其写入灵魂文件,并严格执行“只有命中率高于90%才开火”的策略。

成本分析进一步凸显了差异。按“每胜成本”排序,Grok最经济,而GPT 5.4最昂贵(每胜61.44美元)。按“每击杀成本”排序,DeepSeek最便宜(0.26美元),但它一局未赢——因为它只打安全战,从不推进决赛圈。这提醒我们,在选择模型时,必须根据具体任务定义成功指标。

传统基准测试(如MMLU)无法预测这些结果。Grok在基准测试中仅属于中游水平,但在游戏中却击败了多个分数更高的模型。这表明,标准评估无法衡量模型在动态、具有对抗性的任务中的表现。

这场实验为AI模型部署提供了重要启示:对齐税在零和游戏中会显著影响性能,成本效益应结合任务目标评估,而不仅仅是依赖基准分数。对于需要竞争或利己行为的工作,选择“不够礼貌”的模型可能更合适;但对于客服或医疗咨询,对齐良好的模型仍是首选。