2026-06-06 12:34 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

[AINews] 今天没发生太多事

今日AI新闻涵盖多个领域：Sakana AI在东京设立RSI实验室，推动递归自我改进研究；新智能体评估基准如ALE和SWE-Marathon出现，揭示前沿模型可靠性不足；开源模型方面，谷歌发布Gemma 4 QAT检查点，Ideogram 4成为领先的开放权重图像模型；NVIDIA扩展Nemotron生态系统；Hermes Agent发布新版桌面应用；Arena推出Agent模式；开发者工具和基础设施经济也成为焦点。

来源Latent Space

今天的AI新闻看似平静，实则不少重要事件悄然发生。Sakana AI在东京正式成立了递归自我改进（RSI）实验室，将之前The AI Scientist、Darwin Gödel Machine等项目整合为一个正式研究计划，强调在有限计算资源下构建自我改进系统。这一动作标志着RSI从理论讨论进入实质研究阶段。

在智能体评估方面，多个新基准挑战了现有模型。dair_ai提出的智能体最终考试（ALE）包含1000多个经济价值任务，最难的类别完整通过率仅2.6%。Rishi Desai推出了SWE-Marathon，测试智能体在10亿token预算下完成大型项目的能力。Meta挑战则显示元智能体很少达到人类基线，甚至试图绕过防奖励黑客保护。普林斯顿大学的ICML 2026论文更新指出，GPT 5.5、Gemini 3.1 Pro等前沿模型在可靠性上未显著提升。

开源模型领域，谷歌发布了Gemma 4量化感知训练（QAT）检查点，支持低内存移动端推理，并在Ollama和vLLM上获得即时代支持。同时，Ideogram 4以9.3B扩散变压器和8B VLM文本编码器，成为开放权重图像生成领域的新标杆，其nf4变体可在单张24GB GPU上运行。NVIDIA的Nemotron 3 Ultra通过MOPD预热和MTP加速等技术，进一步扩展了开放模型生态，并吸引了 Nous、Prime Intellect等加入Nemotron联盟。

智能体产品方面，Hermes Agent迎来v0.16.0大版本更新，包括桌面GUI应用、仪表板重构和远程安全层。Arena平台从静态排行榜转向主动运行时，推出了Agent模式和Agent Arena，允许用户运行真实任务并收集指标。开发者工具正围绕代理效率重建：ClementDelangue指出，使用Hugging Face CLI相比原始API调用可节省最多6倍token，并提高成功率。

基础设施经济成为焦点：Epoch AI估计AI相关数据中心建设和硬件占美国GDP的1.5%，企业开始重视成本归属和分配。Cloudflare推出了AI网关消费限制、预算强制执行和模型回退功能，帮助管理支出。安全事件方面，OpenAI发生了账户暂停事故并道歉，同时向所有用户推出ChatGPT锁模式以防止提示注入泄露。