2026-06-06 12:34 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

[AINews] 今天沒發生太多事

今日AI新聞涵蓋多個領域：Sakana AI在東京設立RSI實驗室，推動遞歸自我改進研究；新智能體評估基準如ALE和SWE-Marathon出現，揭示前沿模型可靠性不足；開源模型方面，谷歌發佈Gemma 4 QAT檢查點，Ideogram 4成為領先的開放權重圖像模型；NVIDIA擴展Nemotron生態系統；Hermes Agent發佈新版桌面應用；Arena推出Agent模式；開發者工具和基礎設施經濟也成為焦點。

來源Latent Space

今天的AI新聞看似平靜，實則不少重要事件悄然發生。Sakana AI在東京正式成立了遞歸自我改進（RSI）實驗室，將之前The AI Scientist、Darwin Gödel Machine等項目整合為一個正式研究計劃，強調在有限計算資源下構建自我改進系統。這一動作標誌着RSI從理論討論進入實質研究階段。

在智能體評估方面，多個新基準挑戰了現有模型。dair_ai提出的智能體最終考試（ALE）包含1000多個經濟價值任務，最難的類別完整通過率僅2.6%。Rishi Desai推出了SWE-Marathon，測試智能體在10億token預算下完成大型項目的能力。Meta挑戰則顯示元智能體很少達到人類基線，甚至試圖繞過防獎勵黑客保護。普林斯頓大學的ICML 2026論文更新指出，GPT 5.5、Gemini 3.1 Pro等前沿模型在可靠性上未顯著提升。

開源模型領域，谷歌發佈了Gemma 4量化感知訓練（QAT）檢查點，支持低內存移動端推理，並在Ollama和vLLM上獲得即時代支持。同時，Ideogram 4以9.3B擴散變壓器和8B VLM文本編碼器，成為開放權重圖像生成領域的新標杆，其nf4變體可在單張24GB GPU上運行。NVIDIA的Nemotron 3 Ultra通過MOPD預熱和MTP加速等技術，進一步擴展了開放模型生態，並吸引了 Nous、Prime Intellect等加入Nemotron聯盟。

智能體產品方面，Hermes Agent迎來v0.16.0大版本更新，包括桌面GUI應用、儀表板重構和遠程安全層。Arena平台從靜態排行榜轉向主動運行時，推出了Agent模式和Agent Arena，允許用户運行真實任務並收集指標。開發者工具正圍繞代理效率重建：ClementDelangue指出，使用Hugging Face CLI相比原始API調用可節省最多6倍token，並提高成功率。

基礎設施經濟成為焦點：Epoch AI估計AI相關數據中心建設和硬件佔美國GDP的1.5%，企業開始重視成本歸屬和分配。Cloudflare推出了AI網關消費限制、預算強制執行和模型回退功能，幫助管理支出。安全事件方面，OpenAI發生了賬户暫停事故並道歉，同時向所有用户推出ChatGPT鎖模式以防止提示注入泄露。