LWiAI 播客第235期:Sonnet 4.6、深度思考令牌与Anthropic vs Pentagon
本年度AI新闻播客第235期重点介绍了Anthropic的Sonnet 4.6(上下文长度达1M令牌,在ARC-AGI-2上表现优异)、Google的Gemini 3.1 Pro、xAI的Grok 4.2测试版以及多项工具更新。商业方面,Meta据称与AMD达成高达1000亿美元的芯片交易,MatX融资5亿美元开发专用Transformer芯片,World Labs融资10亿美元构建世界模型,Simile融资1亿美元预测人类行为。研究亮点包括深度思考令牌、掩码更新优化器以及LLM吸引子状态。政策方面讨论了Anthropic对五角大楼合同的立场以及蒸馏攻击防范。
Last Week in AI(LWiAI)播客第235期于2026年2月27日录制,由Andrey Kurenkov和Jeremie Harris主持。本期节目覆盖了上周AI领域的重要新闻,包括模型更新、商业动态、研究进展和政策安全话题。
在模型与工具方面,Anthropic发布了Sonnet 4.6,其上下文窗口扩展至100万个令牌,并在ARC-AGI-2基准测试中取得了显著成果。与此同时,Google推出了Gemini 3.1 Pro,该模型在语音、图像、视频等多模态能力上实现重大跃升,同样在ARC-AGI-2上表现优异。xAI的Grok 4.2测试版引入了多智能体辩论功能。此外,Anthropic发布了Claude Code的移动版“Remote Control”,Perplexity推出了名为“Computer”的多智能体协调器,能够将任务分配给其他AI代理。
商业和计算领域方面,Meta据称正在与AMD谈判一项价值高达1000亿美元的芯片交易,可能涉及认股权证或股权激励。AI芯片初创公司MatX完成了5亿美元融资,计划开发专用Transformer芯片,预计2027年出货。World Labs从Autodesk等投资者处获得10亿美元,用于将世界模型融入3D工作流。另一家初创公司Simile融资1亿美元,旨在模拟和预测人类行为。基础设施方面,Stargate AI数据中心项目因OpenAI、Oracle和SoftBank之间的控制权争议和资金问题而延迟。中国计划在未来两年内将7纳米和5纳米芯片产量提升5倍,目标到2030年每月生产50万片晶圆。
研究进展方面,多项工作引起关注。一项研究探讨了自适应优化器中掩码更新的有效性。另一篇论文引入了“深度思考令牌”概念,作为衡量大型语言模型(LLM)推理努力的信号。研究者还观察到LLM在机器人对话中的吸引子状态行为。几何分析被用于理解计数任务的机制。此外,有方法将任务难度映射到人类完成时间上。
政策与安全方面,Anthropic CEO Amodei表示,五角大楼的威胁“不会改变我们的立场”,尽管埃隆·马斯克的xAI已与五角大楼达成协议,将Grok用于机密系统。Anthropic发布了一份关于蒸馏攻击的报告,涉及DeepSeek、Moonshot和Minimax等模型。OpenAI也发布了新报告,详述了其破坏AI恶意使用的努力。