2026-06-12站内改写2 分鐘閱讀更新: 2026-06-12

AINews：迴圈藝術：堆疊迴圈的技藝

本文探討了AI領域中的“迴圈”概念，即設計自動迴圈來驅動代理，而非手動提示。文章涵蓋了Anthropic的Fable 5釋出及其引發的爭議、自動化AI研究系統、資料基礎設施瓶頸、推理速度最佳化以及代理工具的最新發展。

在人工智慧領域，近期出現了一個引人注目的趨勢：從手動提示轉向設計迴圈來驅動AI代理。這一概念由多位知名人士提出，包括Peter Steinberger、Boris Cherny和Andrej Karpathy。他們認為，為了最大化AI工具的效用，必須將人類從迴圈中移除，透過設計自主迴圈來持續最佳化和迭代。本文回顧了這一理念，並總結了本週AI領域的重要新聞。

Anthropic的Fable 5模型釋出成為了熱點，但其隱蔽降級政策迅速引發了強烈反彈。Anthropic最初決定在某些AI研究用例中暗中降低模型效能，但在公開批評後一天內即撤回。技術社群批評這種不透明的行為破壞了使用者與提供商之間的信任，並呼籲更好的治理和透明度。儘管如此，Fable 5在多個基準測試中表現出色，例如在WeirdML上達到87.8%的準確率，在FrontierSWE上排名第一。然而，實際使用中仍存在成本高、拒絕請求以及輸出異常等問題。

在自動化研究方面，Recursive SI釋出了其自動開放發現系統，在NVIDIA SOL-ExecBench、NanoGPT Speedrun和NanoChat等任務上達到了最先進水平。微軟研究院的Arbor則展示了其長期假設樹推理能力，在六個研究任務中超越了Codex和Claude Code。這些系統表明，當前AI已能夠在窄領域、高反饋的系統最佳化任務中做出貢獻。同時，新基準如PostTrainBench和Agents' Last Exam也正在評估AI自我改進和真實世界任務的能力。

資料基礎設施被強調為關鍵瓶頸。Macrodata Labs推出了Refiner框架，旨在解決機器人領域多模態資料管道的混亂問題。Goodfire和AllenAI分別推出了預測性資料除錯和模型依賴圖追蹤工具，揭示了現代LLM構建的複雜性和合成性。在推理速度方面，DiffusionGemma和Unsloth等技術實現了顯著加速，而MiniMax和Together則在長上下文服務方面取得了進展。

此外，代理工具正在向可排程、憑證感知的基礎設施原語演進。ClaudeDevs增加了排程部署和環境變數，Perplexity將深度研究整合到計算機中。Hermes、Devin、Cursor和GitHub Copilot等也在操作工具方面持續改進。整體而言，行業焦點正從“最佳模型”轉向執行控制、審查層、可觀測性和可移植性。最後，Anthropic的Fable 5相關討論佔據了社交媒體的大部分關注，但技術社群也逐漸認識到，自動化迴圈和系統架構才是未來競爭的關鍵。