【AINews】FrontierCode:針對代碼質量的基準測試,而非敷衍了事
Cognition推出FrontierCode基準測試,專注於評估代碼的可合併性而非僅通過單元測試。最佳模型在 hardest 子集上僅得13%,表明編碼遠未解決。同時,代理控制轉向“循環”模式,並伴有諸多警告。其他動態包括Kimi的代理和桌面產品更新、Google的本地部署優化、Agent Arena基於百萬會話的排行榜、以及Apple的WWDC AI集成。
Cognition發佈了FrontierCode基準測試,旨在將代碼評估標準從簡單的單元測試通過提升至實際可合併性。該測試由開源維護者構建,每項任務耗時超過40小時,評估維度包括迴歸安全性、代碼整潔度、範圍、測試正確性和可維護性。結果顯示,最佳模型Opus 4.8在 hardest 子集上的得分僅為13%,遠低於SWE-Bench風格的50%+,表明編碼領域的解決程度被高估。
“循環”正成為代理控制的主流隱喻,但需要謹慎使用。實踐者強調代理應被賦予清晰目標、驗證標準和迭代結構,而非一次性提示。例如,dzhng提倡“不要用循環,設計狀態機”,而Omar Sar0和Graham Neubig則指出在易於驗證的領域之外,人類檢查點仍然必不可少。
產品層面的變化反映了這一趨勢:ClaudeDevs為MCP連接器開發者添加了可觀測性儀表板,MagicPath推出了Builder計劃以支持外部代理工作流和多人畫布編輯。LangSmith Sandboxes和Modal的沙箱擴展故事都指向同一個基礎設施趨勢:代理需要隔離、可檢查、長時間運行的環境。
在模型方面,Moonshot更新了Kimi代碼代理,增加了CLI安裝、拖放視頻作為編碼上下文、ACP支持、插件和IDE集成,並推出了包含300個本地子代理的桌面代理產品Kimi Work。Google發佈了QAT Gemma 4檢查點,內存使用減少約4倍,Gemma 4 E2B可在約1GB內存下運行。llama.cpp增加了視頻輸入支持。
Agent Arena基於超過100萬真實會話,通過因果追蹤而非投票來評估不同編排器/框架的處理效果,涵蓋確認成功、讚揚與抱怨比例、可控性、bash恢復和工具幻覺五個信號。
在消費級AI平台方面,Google升級了NotebookLM,增加了代理聊天、更強推理和新輸出格式,同時將AI Plus訂閲價格從7.99美元降至4.99美元。Apple的WWDC重點展示了集成而非前沿性能,其設備端模型採用20B參數查詢路由架構,每次查詢從NAND加載專家到RAM。
研究方向上,Anthropic認為AI在科學領域進展緩慢的瓶頸在於基礎設施不匹配,而OpenEnv已轉移至包括Hugging Face、Meta-PyTorch、Reflection、Unsloth等在內的聯盟。Hivemind宣佈了一個系統,能將來自Claude Code、Codex、Cursor等代理的軌跡轉化為可複用技能。
優化討論活躍,多個線程辯論Muon與Shampoo的區別,表明對優化器級別改進的興趣重燃。