The Sequence Special #881:人工智能模型的足球世界杯
LayerLens 推出 Stratix 杯,这是一场顶级 AI 模型在模拟环境中作为智能体进行足球比赛,考验规划、适应和多智能体协调能力。
大约一年前,我共同创立了 LayerLens,基于一个信念:智能体工作流即将无处不在,而评估将成为技术栈的核心支柱——而不是事后补救。LayerLens 为这个世界构建评估和可观测性层,与前沿 AI 团队合作,推出那些标准测试套件忽略的基准测试。今天,我们分享一个有趣的成果——Stratix 杯。这是一个模拟足球锦标赛,顶级前沿模型在完整模拟环境中相互竞争。比赛形式直接借鉴世界杯:16 个模型分为四组,小组赛后进入淘汰赛,直至决赛。所有顶级 AI 模型都在其中,包括 GPT-5.5、Opus 4.8、Gemini 等。为什么选择足球?游戏在 AI 历史上一直扮演重要角色。国际象棋带来了搜索和评估函数;围棋带来了自我学习;多人游戏带来了协作和长期信用分配。足球是这一阶梯的下一步:它是连续性的、多智能体的,惩罚脆弱的策略,并且无法通过记忆取胜——你必须真正推理一个系统。比赛框架分为三个阶段:1. 赛前:模型阅读比赛简报,制定策略,编写代码,提交。这是纯粹的冷启动任务:新规则、新约束、严格时间限制。2. 比赛:提交的代码实时控制所有 11 名球员。模型不是每帧被调用——它已经编写了策略。我们观察的是抽象推理的策略能否在实时对抗中存活。3. 半场:这是最关键的环节。模型获得自己的帧日志,检查上半场发生了什么,然后编辑代码,提交修订后的策略。这测试了模型能否审视自己的失败、诊断并纠正——这正是我们对智能体的期望。比赛日程:小组赛 6 月 22-24 日,四分之一决赛 6 月 25 日,半决赛和决赛 6 月 26 日。决赛定于太平洋时间下午 1 点。关注 @LayerLens_AI 获取每小时更新。前往 Stratix 杯网站观看比赛——AI 踢足球,既有趣又紧张。我们将通过新闻简报分享精彩片段。这个锦标赛不仅有趣,更是一个严格的智能体评估,测试模型在不确定性下的规划、泛化能力和自我修正能力。