序列雷达 #885:上周AI概览——模型、游戏与评估的未来
本周AI领域发生了一系列重要事件:OpenAI发布GPT-5.6系列模型(Sol、Terra、Luna),采用分层安全架构和政府协调机制;Anthropic推出Claude Tag,通过语义标记增强模型交互;General Intuition融资3.2亿美元,专注于基于游戏动作数据训练大型行动模型;LayerLens Stratix Cup通过足球比赛形式评估AI模型。此外,还有多项研究和技术发布。
本周AI领域呈现出一种奇妙的发展轨迹,多年来的不同方向——更好的模型、更丰富的环境、更自主的代理和更难的评估——终于汇聚成清晰的图景。AI不再仅仅是学习回答问题,它正在学习行动。
首先,OpenAI发布了GPT-5.6系列模型,实际上是以有限预览的形式推出。模型的命名Sol、Terra、Luna本身就讲述了一个故事:旗舰模型、平衡模型以及快速廉价的模型。产品分类变得像行星体系,因为市场不再仅仅追求“最好的模型”,而是需要不同温度的智能:用于前沿工作的深度推理、用于日常自动化的经济实惠能力,以及用于需要快速运行的系统的高吞吐量推理。但GPT-5.6最有趣的部分并非基准测试曲线,而是其发布形态。这是一个配备了安全架构、政府协调层和分阶段访问策略的模型。这很重要——前沿AI发布开始更像是受控的关键基础设施部署,而非简单的软件更新。过去我们问模型能否写出更好的代码,现在则问谁可以获得访问权限、受何种约束、如何监控,以及防御者能多快利用攻击者必然觊觎的能力。
与此同时,Anthropic悄然推出了Claude Tag,这一功能标志着与模型交互方式的微妙转变。Claude Tag允许用户使用明确的语义标记来结构化提示和响应,使模型更容易在较长的交互中跟踪上下文、角色和意图。这是一个界面小改变,却具有重大意义:随着模型变得更加自主,我们与它们的通信方式必须从松散对话演变为更接近结构化协作的方式。Claude Tag暗示了这样一个未来:提示不再依赖于巧妙的措辞,而是更多地依赖于设计清晰的、机器可读的工作流。
随后,General Intuition的新一轮融资是最清晰的信号——下一个数据前沿不是文本,甚至不是视频,而是行动。该公司的理念很有深度:电子游戏不仅仅是娱乐,它们是意图、感知、运动、失败、奖励和适应的压缩实验室。一段游戏视频不仅仅是像素,而是像素加上选择:玩家看到了什么?试图做什么?接下来发生了什么?这种带有动作标签的循环正是语言模型在尝试用静态媒体推理物理世界时所缺少的。换句话说,General Intuition押注《我的世界》、类似《堡垒之夜》的环境、模拟以及玩家行为可能成为具身AI的预训练基础——如同网络之于语言模型一样:一种混乱而庞大的预训练基质,从中涌现出通用性。
然后,以最令人愉快的方式,LayerLens Stratix杯将AI评估变成了足球比赛。Claude Opus 4.8与GPT-5.5之间的决赛不仅是场奇观,更是一种不同形式的基准测试。16个模型各自编写策略、控制球队、在轮次之间调整,并在一个环境中生存,其中智能必须变为策略——不是散文,不是排行榜答案,而是可执行的行动。Claude Opus 4.8以1-0击败GPT-5.5赢得决赛,这个结果固然有趣,但更深层的是方法论上的意义:我们需要这样的竞技场,让模型在压力下、在信息不完美、存在反馈循环和后果的环境中展现自己。
这就是本周的主线:GPT-5.6推动了可控能力的边界,General Intuition推动了行动数据的边界,Stratix杯推动了评估的边界。模型越来越不像聊天机器人,而更像沙盒中的有机体:感知、规划、行动、失败、适应。AI的未来将不仅仅由谁拥有最大的模型决定,还将由谁建造最好的模型学习世界、最好的运行护栏,以及最好的游戏来发现它们实际能做什么决定的。
在研究方面,Meta发布了Autodata框架,通过代理数据科学家迭代生成高质量合成数据;中国人民大学和字节跳动联合推出8B参数的iLLaDA扩散语言模型;上海交大、清华和MemTensor评估了12种代理记忆系统,发现没有单一架构占优,效果取决于与工作负载瓶颈的对齐;伊利诺伊大学芝加哥分校等提出MEMPROBE基准测试,揭示代理在回忆和整合情景记忆方面的困难;Qwen团队推出Qwen-AgentWorld语言世界模型;Mila、康奈尔大学等提出锥形语言模型(TLM),通过在前层集中参数容量提升性能。
在技术发布方面,OpenAI的GPT 5.6 Sol、Terra、Luna,Anthropic的Claude Tag,以及Mistral OCR文档理解模型均已亮相。
最后,本周十大AI新闻包括:Patronus AI融资5000万美元开发数字世界模型;General Intuition融资3.2亿美元开发大型行动模型;Netris融资1500万美元用于网络自动化;Cerebras股价因毛利率预测下滑而暴跌;Groq确认6.5亿美元融资转向AI推理云服务;Google DeepMind向A24投资7500万美元合作开发AI电影制作工具;美国商务部向I-Pulse提供2.5亿美元用于碳化硅芯片开发;SK海力士申请294亿美元美股上市;以及字节跳动寻求200亿美元离岸贷款用于AI基础设施建设。