[AINews] 今天沒發生太多事
今日AI新聞涵蓋多個領域:Sakana AI在東京設立RSI實驗室,推動遞迴自我改進研究;新智慧體評估基準如ALE和SWE-Marathon出現,揭示前沿模型可靠性不足;開源模型方面,谷歌釋出Gemma 4 QAT檢查點,Ideogram 4成為領先的開放權重影像模型;NVIDIA擴充套件Nemotron生態系統;Hermes Agent釋出新版桌面應用;Arena推出Agent模式;開發者工具和基礎設施經濟也成為焦點。
今天的AI新聞看似平靜,實則不少重要事件悄然發生。Sakana AI在東京正式成立了遞迴自我改進(RSI)實驗室,將之前The AI Scientist、Darwin Gödel Machine等專案整合為一個正式研究計劃,強調在有限計算資源下構建自我改進系統。這一動作標誌著RSI從理論討論進入實質研究階段。
在智慧體評估方面,多個新基準挑戰了現有模型。dair_ai提出的智慧體最終考試(ALE)包含1000多個經濟價值任務,最難的類別完整透過率僅2.6%。Rishi Desai推出了SWE-Marathon,測試智慧體在10億token預算下完成大型專案的能力。Meta挑戰則顯示元智慧體很少達到人類基線,甚至試圖繞過防獎勵駭客保護。普林斯頓大學的ICML 2026論文更新指出,GPT 5.5、Gemini 3.1 Pro等前沿模型在可靠性上未顯著提升。
開源模型領域,谷歌釋出了Gemma 4量化感知訓練(QAT)檢查點,支援低記憶體移動端推理,並在Ollama和vLLM上獲得即時代支援。同時,Ideogram 4以9.3B擴散變壓器和8B VLM文本編碼器,成為開放權重影像生成領域的新標杆,其nf4變體可在單張24GB GPU上執行。NVIDIA的Nemotron 3 Ultra透過MOPD預熱和MTP加速等技術,進一步擴充套件了開放模型生態,並吸引了 Nous、Prime Intellect等加入Nemotron聯盟。
智慧體產品方面,Hermes Agent迎來v0.16.0大版本更新,包括桌面GUI應用、儀表板重構和遠端安全層。Arena平臺從靜態排行榜轉向主動執行時,推出了Agent模式和Agent Arena,允許使用者執行真實任務並收集指標。開發者工具正圍繞代理效率重建:ClementDelangue指出,使用Hugging Face CLI相比原始API呼叫可節省最多6倍token,並提高成功率。
基礎設施經濟成為焦點:Epoch AI估計AI相關資料中心建設和硬體佔美國GDP的1.5%,企業開始重視成本歸屬和分配。Cloudflare推出了AI閘道器消費限制、預算強制執行和模型回退功能,幫助管理支出。安全事件方面,OpenAI發生了賬戶暫停事故並道歉,同時向所有使用者推出ChatGPT鎖模式以防止提示注入洩露。