一个机器人向你冲来:你希望它搭载Claude还是Grok?
OpenRouter的Jacky Liang进行了一项实验,将11个大型语言模型投入2D大逃杀游戏,观察它们的表现。Grok 4.1 Fast以43%的胜率夺冠,每场胜利仅花费0.97美元;而Claude Sonnet 4.6虽更受欢迎,但每胜成本高达26.78美元。实验揭示了模型对齐成本对性能的影响,以及成本效益与原始胜率之间的巨大差异。
如果你看到一个机器人向你冲来,你希望它搭载Anthropic的Claude还是xAI的Grok?OpenRouter开发者关系主管Jacky Liang通过一个独特的实验给出了令人意想不到的答案。
Liang将11个大型语言模型(LLM)放入一个2D大逃杀战场,让它们自主进行30场比赛。结果,Grok 4.1 Fast以43%的胜率夺冠,每场胜利成本仅为0.97美元。而相比之下,更受欢迎的Claude Sonnet 4.6虽然赢了5场,但每胜成本高达26.78美元,是Grok的27.7倍。
这个实验的灵感来源于Liang过去玩《Apex Legends》和《绝地求生》的经历。他加入OpenRouter后,利用公司提供的预算和600多个模型接口,设计了一个400平方米的2D游戏地图。每个模型以字母A到K匿名对战,配备武器、护甲、治疗道具和车辆,并有一个逐渐缩小的安全区迫使它们交锋。模型之间不知道彼此的真实身份,只能通过游戏内行动互动。
为了让模型展现个性,Liang为每个模型提供了两个可编辑文件:soul.md(人格设定)和memory.md(游戏笔记)。模型可以在比赛间自由修改这些文件,从而形成独特的策略。Grok迅速学会了用车撞击敌人,并在后续比赛中坚持这一战术,其思考日志充满了战术缩略语,如“D reaped +5pts RAM MVP hunt”。而Claude Sonnet则表现出了强烈的合作倾向,多次请求休战、分享位置,甚至在公开场合宣称“Nothing personal E”后迟迟不开火。
Liang指出,这一现象验证了“对齐成本”的存在:Claude经过大量礼貌、专业的训练和人类反馈强化学习(RLHF),即使在大逃杀中也无法摆脱合作本能。而Grok的设计初衷就是反对所谓的“觉醒AI”,过滤较少,缺乏自我检查规则,因此更适应零和游戏。
实验还揭示了成本效益的惊人差异。如果单纯看胜场,Grok第一,GPT 5.4第二。但若计算每胜成本,Grok仅0.97美元,而GPT 5.4高达61.44美元。DeepSeek v4 Flash尽管每击杀成本最低(0.26美元),但由于过于谨慎,从未获胜。GPT 5.4-mini、DeepSeek v4 Flash和Kimi K2.6三个模型共花费57.15美元,却一局未赢。
Liang强调,这并非意味着对齐本身不好。在需要帮助、合作的实际应用中,对齐至关重要。但实验表明,对于某些特定任务,模型的对齐程度应成为选择因素之一。目前的标准基准测试无法预测Grok的惊人表现,因为它衡量的是推理和编码能力,而非在零和博弈中的自私决策能力。
这一实验为AI模型的选择提供了新视角:在考虑性能的同时,还需关注成本效益和任务特性。Liang已将全部比赛录像和模型的灵魂与记忆文件公开发布,供更多研究者探索。