[AINews] 今天没发生太多事
今日AI新闻涵盖多个领域:Sakana AI在东京设立RSI实验室,推动递归自我改进研究;新智能体评估基准如ALE和SWE-Marathon出现,揭示前沿模型可靠性不足;开源模型方面,谷歌发布Gemma 4 QAT检查点,Ideogram 4成为领先的开放权重图像模型;NVIDIA扩展Nemotron生态系统;Hermes Agent发布新版桌面应用;Arena推出Agent模式;开发者工具和基础设施经济也成为焦点。
今天的AI新闻看似平静,实则不少重要事件悄然发生。Sakana AI在东京正式成立了递归自我改进(RSI)实验室,将之前The AI Scientist、Darwin Gödel Machine等项目整合为一个正式研究计划,强调在有限计算资源下构建自我改进系统。这一动作标志着RSI从理论讨论进入实质研究阶段。
在智能体评估方面,多个新基准挑战了现有模型。dair_ai提出的智能体最终考试(ALE)包含1000多个经济价值任务,最难的类别完整通过率仅2.6%。Rishi Desai推出了SWE-Marathon,测试智能体在10亿token预算下完成大型项目的能力。Meta挑战则显示元智能体很少达到人类基线,甚至试图绕过防奖励黑客保护。普林斯顿大学的ICML 2026论文更新指出,GPT 5.5、Gemini 3.1 Pro等前沿模型在可靠性上未显著提升。
开源模型领域,谷歌发布了Gemma 4量化感知训练(QAT)检查点,支持低内存移动端推理,并在Ollama和vLLM上获得即时代支持。同时,Ideogram 4以9.3B扩散变压器和8B VLM文本编码器,成为开放权重图像生成领域的新标杆,其nf4变体可在单张24GB GPU上运行。NVIDIA的Nemotron 3 Ultra通过MOPD预热和MTP加速等技术,进一步扩展了开放模型生态,并吸引了 Nous、Prime Intellect等加入Nemotron联盟。
智能体产品方面,Hermes Agent迎来v0.16.0大版本更新,包括桌面GUI应用、仪表板重构和远程安全层。Arena平台从静态排行榜转向主动运行时,推出了Agent模式和Agent Arena,允许用户运行真实任务并收集指标。开发者工具正围绕代理效率重建:ClementDelangue指出,使用Hugging Face CLI相比原始API调用可节省最多6倍token,并提高成功率。
基础设施经济成为焦点:Epoch AI估计AI相关数据中心建设和硬件占美国GDP的1.5%,企业开始重视成本归属和分配。Cloudflare推出了AI网关消费限制、预算强制执行和模型回退功能,帮助管理支出。安全事件方面,OpenAI发生了账户暂停事故并道歉,同时向所有用户推出ChatGPT锁模式以防止提示注入泄露。