2026-06-06 12:34 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

[AINews] 今天沒發生太多事

今日AI新聞涵蓋多個領域：Sakana AI在東京設立RSI實驗室，推動遞迴自我改進研究；新智慧體評估基準如ALE和SWE-Marathon出現，揭示前沿模型可靠性不足；開源模型方面，谷歌釋出Gemma 4 QAT檢查點，Ideogram 4成為領先的開放權重影像模型；NVIDIA擴充套件Nemotron生態系統；Hermes Agent釋出新版桌面應用；Arena推出Agent模式；開發者工具和基礎設施經濟也成為焦點。

來源Latent Space

今天的AI新聞看似平靜，實則不少重要事件悄然發生。Sakana AI在東京正式成立了遞迴自我改進（RSI）實驗室，將之前The AI Scientist、Darwin Gödel Machine等專案整合為一個正式研究計劃，強調在有限計算資源下構建自我改進系統。這一動作標誌著RSI從理論討論進入實質研究階段。

在智慧體評估方面，多個新基準挑戰了現有模型。dair_ai提出的智慧體最終考試（ALE）包含1000多個經濟價值任務，最難的類別完整透過率僅2.6%。Rishi Desai推出了SWE-Marathon，測試智慧體在10億token預算下完成大型專案的能力。Meta挑戰則顯示元智慧體很少達到人類基線，甚至試圖繞過防獎勵駭客保護。普林斯頓大學的ICML 2026論文更新指出，GPT 5.5、Gemini 3.1 Pro等前沿模型在可靠性上未顯著提升。

開源模型領域，谷歌釋出了Gemma 4量化感知訓練（QAT）檢查點，支援低記憶體移動端推理，並在Ollama和vLLM上獲得即時代支援。同時，Ideogram 4以9.3B擴散變壓器和8B VLM文本編碼器，成為開放權重影像生成領域的新標杆，其nf4變體可在單張24GB GPU上執行。NVIDIA的Nemotron 3 Ultra透過MOPD預熱和MTP加速等技術，進一步擴充套件了開放模型生態，並吸引了 Nous、Prime Intellect等加入Nemotron聯盟。

智慧體產品方面，Hermes Agent迎來v0.16.0大版本更新，包括桌面GUI應用、儀表板重構和遠端安全層。Arena平臺從靜態排行榜轉向主動執行時，推出了Agent模式和Agent Arena，允許使用者執行真實任務並收集指標。開發者工具正圍繞代理效率重建：ClementDelangue指出，使用Hugging Face CLI相比原始API呼叫可節省最多6倍token，並提高成功率。

基礎設施經濟成為焦點：Epoch AI估計AI相關資料中心建設和硬體佔美國GDP的1.5%，企業開始重視成本歸屬和分配。Cloudflare推出了AI閘道器消費限制、預算強制執行和模型回退功能，幫助管理支出。安全事件方面，OpenAI發生了賬戶暫停事故並道歉，同時向所有使用者推出ChatGPT鎖模式以防止提示注入洩露。