2026-06-04站内改写2 分钟阅读更新: 2026-06-04

一个机器人向你冲来：你希望它搭载Claude还是Grok？

OpenRouter的Jacky Liang进行了一项实验，将11个大型语言模型投入2D大逃杀游戏，观察它们的表现。Grok 4.1 Fast以43%的胜率夺冠，每场胜利仅花费0.97美元；而Claude Sonnet 4.6虽更受欢迎，但每胜成本高达26.78美元。实验揭示了模型对齐成本对性能的影响，以及成本效益与原始胜率之间的巨大差异。

来源OpenRouter Announcements

如果你看到一个机器人向你冲来，你希望它搭载Anthropic的Claude还是xAI的Grok？OpenRouter开发者关系主管Jacky Liang通过一个独特的实验给出了令人意想不到的答案。

Liang将11个大型语言模型（LLM）放入一个2D大逃杀战场，让它们自主进行30场比赛。结果，Grok 4.1 Fast以43%的胜率夺冠，每场胜利成本仅为0.97美元。而相比之下，更受欢迎的Claude Sonnet 4.6虽然赢了5场，但每胜成本高达26.78美元，是Grok的27.7倍。

这个实验的灵感来源于Liang过去玩《Apex Legends》和《绝地求生》的经历。他加入OpenRouter后，利用公司提供的预算和600多个模型接口，设计了一个400平方米的2D游戏地图。每个模型以字母A到K匿名对战，配备武器、护甲、治疗道具和车辆，并有一个逐渐缩小的安全区迫使它们交锋。模型之间不知道彼此的真实身份，只能通过游戏内行动互动。

为了让模型展现个性，Liang为每个模型提供了两个可编辑文件：soul.md（人格设定）和memory.md（游戏笔记）。模型可以在比赛间自由修改这些文件，从而形成独特的策略。Grok迅速学会了用车撞击敌人，并在后续比赛中坚持这一战术，其思考日志充满了战术缩略语，如“D reaped +5pts RAM MVP hunt”。而Claude Sonnet则表现出了强烈的合作倾向，多次请求休战、分享位置，甚至在公开场合宣称“Nothing personal E”后迟迟不开火。

Liang指出，这一现象验证了“对齐成本”的存在：Claude经过大量礼貌、专业的训练和人类反馈强化学习（RLHF），即使在大逃杀中也无法摆脱合作本能。而Grok的设计初衷就是反对所谓的“觉醒AI”，过滤较少，缺乏自我检查规则，因此更适应零和游戏。

实验还揭示了成本效益的惊人差异。如果单纯看胜场，Grok第一，GPT 5.4第二。但若计算每胜成本，Grok仅0.97美元，而GPT 5.4高达61.44美元。DeepSeek v4 Flash尽管每击杀成本最低（0.26美元），但由于过于谨慎，从未获胜。GPT 5.4-mini、DeepSeek v4 Flash和Kimi K2.6三个模型共花费57.15美元，却一局未赢。

Liang强调，这并非意味着对齐本身不好。在需要帮助、合作的实际应用中，对齐至关重要。但实验表明，对于某些特定任务，模型的对齐程度应成为选择因素之一。目前的标准基准测试无法预测Grok的惊人表现，因为它衡量的是推理和编码能力，而非在零和博弈中的自私决策能力。

这一实验为AI模型的选择提供了新视角：在考虑性能的同时，还需关注成本效益和任务特性。Liang已将全部比赛录像和模型的灵魂与记忆文件公开发布，供更多研究者探索。