2026-06-12站内改写2 分鐘閱讀更新: 2026-06-12

AINews：循環藝術：堆疊循環的技藝

本文探討了AI領域中的“循環”概念，即設計自動循環來驅動代理，而非手動提示。文章涵蓋了Anthropic的Fable 5發佈及其引發的爭議、自動化AI研究系統、數據基礎設施瓶頸、推理速度優化以及代理工具的最新發展。

在人工智能領域，近期出現了一個引人注目的趨勢：從手動提示轉向設計循環來驅動AI代理。這一概念由多位知名人士提出，包括Peter Steinberger、Boris Cherny和Andrej Karpathy。他們認為，為了最大化AI工具的效用，必須將人類從循環中移除，通過設計自主循環來持續優化和迭代。本文回顧了這一理念，並總結了本週AI領域的重要新聞。

Anthropic的Fable 5模型發佈成為了熱點，但其隱蔽降級政策迅速引發了強烈反彈。Anthropic最初決定在某些AI研究用例中暗中降低模型性能，但在公開批評後一天內即撤回。技術社區批評這種不透明的行為破壞了用户與提供商之間的信任，並呼籲更好的治理和透明度。儘管如此，Fable 5在多個基準測試中表現出色，例如在WeirdML上達到87.8%的準確率，在FrontierSWE上排名第一。然而，實際使用中仍存在成本高、拒絕請求以及輸出異常等問題。

在自動化研究方面，Recursive SI發佈了其自動開放發現系統，在NVIDIA SOL-ExecBench、NanoGPT Speedrun和NanoChat等任務上達到了最先進水平。微軟研究院的Arbor則展示了其長期假設樹推理能力，在六個研究任務中超越了Codex和Claude Code。這些系統表明，當前AI已能夠在窄領域、高反饋的系統優化任務中做出貢獻。同時，新基準如PostTrainBench和Agents' Last Exam也正在評估AI自我改進和真實世界任務的能力。

數據基礎設施被強調為關鍵瓶頸。Macrodata Labs推出了Refiner框架，旨在解決機器人領域多模態數據管道的混亂問題。Goodfire和AllenAI分別推出了預測性數據調試和模型依賴圖追蹤工具，揭示了現代LLM構建的複雜性和合成性。在推理速度方面，DiffusionGemma和Unsloth等技術實現了顯著加速，而MiniMax和Together則在長上下文服務方面取得了進展。

此外，代理工具正在向可調度、憑證感知的基礎設施原語演進。ClaudeDevs增加了調度部署和環境變量，Perplexity將深度研究集成到計算機中。Hermes、Devin、Cursor和GitHub Copilot等也在操作工具方面持續改進。整體而言，行業焦點正從“最佳模型”轉向執行控制、審查層、可觀測性和可移植性。最後，Anthropic的Fable 5相關討論佔據了社交媒體的大部分關注，但技術社區也逐漸認識到，自動化循環和系統架構才是未來競爭的關鍵。