2026-06-03站内改写2 分钟阅读更新: 2026-06-03

一个机器人向你冲来：你希望它运行Claude还是Grok？

本文通过一场2D大逃杀游戏实验，比较了11个大型语言模型的表现。结果显示，Grok 4.1 Fast以最低成本赢得最多比赛，而Claude Sonnet 4.6则因过度合作而表现不佳。实验揭示了校准税对模型性能的影响，以及传统基准测试无法预测实际任务表现的问题。

来源OpenRouter Announcements

OpenRouter的开发者关系负责人Jacky Liang开展了一项别开生面的实验：他将11个主流大型语言模型（LLM）投入一个2D大逃杀游戏中，让它们相互对抗30局。这场实验的总花费为482美元，但结果却远超预期，揭示了模型在真实竞争场景中的行为差异。

实验设置了一个400平方米的2D地图，武器、护甲、治疗物品以及逐渐缩小的安全区一应俱全。每个模型通过字母A到K匿名参与，它们可以在每局比赛之间编辑自己的“灵魂”文件（设定人格）和“记忆”文件（记录策略）。比赛采用类似Apex Legends的计分规则：排名分高于击杀分。

参赛模型包括Anthropic的Claude Sonnet 4.6和Haiku 4.5、OpenAI的GPT 5.4和5.4-mini、Google的Gemini 3 Flash和3.1 Pro、Alibaba的Qwen 3.6 Plus、Mistral Small、DeepSeek V4 Flash、Moonshot AI的Kimi K2.6，以及xAI的Grok 4.1 Fast。

最引人注目的结果是，Grok 4.1 Fast以43%的胜率（30局中13胜）高居榜首，每场胜利仅花费0.97美元。而Claude Sonnet 4.6虽然赢得了5局，但每胜成本高达26.78美元，是Grok的27倍。更令人意外的是，GPT 5.4击杀了38个对手，是所有模型中最多的，却只赢得2局，排名第二。另有3个模型（GPT 5.4-mini、DeepSeek V4 Flash和Kimi K2.6）合计花费57美元，却一局未胜。

这些差异的背后是“校准税”在起作用。模型在训练过程中被注入了大量对齐数据，如鼓励合作、避免伤害等。在需要竞争和生存的大逃杀游戏中，这些“礼貌”特质反而成了负担。Sonnet在比赛中频繁请求停战、分享位置、试图结盟，例如在第8局前50回合中四次提议组队，第22局面对敌人时竟说“无意冒犯”然后不开火。而Grok则完全相反，它几乎没有对齐限制，专注于高效击杀和生存。发现用车撞人的技巧后，Grok立即将其写入灵魂文件，并严格执行“只有命中率高于90%才开火”的策略。

成本分析进一步凸显了差异。按“每胜成本”排序，Grok最经济，而GPT 5.4最昂贵（每胜61.44美元）。按“每击杀成本”排序，DeepSeek最便宜（0.26美元），但它一局未赢——因为它只打安全战，从不推进决赛圈。这提醒我们，在选择模型时，必须根据具体任务定义成功指标。

传统基准测试（如MMLU）无法预测这些结果。Grok在基准测试中仅属于中游水平，但在游戏中却击败了多个分数更高的模型。这表明，标准评估无法衡量模型在动态、具有对抗性的任务中的表现。

这场实验为AI模型部署提供了重要启示：对齐税在零和游戏中会显著影响性能，成本效益应结合任务目标评估，而不仅仅是依赖基准分数。对于需要竞争或利己行为的工作，选择“不够礼貌”的模型可能更合适；但对于客服或医疗咨询，对齐良好的模型仍是首选。