AI News HubLIVE
站内改写2 分鐘閱讀

Terminal-Bench挑戰:長週期、高token消耗、單任務基準測試

Terminal-Bench Challenges是一種新的基準測試格式,旨在測試智慧體在需要人類專家數月完成的大規模、長週期任務上的表現。首批發布了三個挑戰:Rust編譯器加速、推理引擎程式碼高爾夫和WASM WebGL渲染器。初步實驗顯示智慧體表現參差不齊,主要失敗模式包括缺乏探索空間和過度使用測試套件。

來源Hacker News AI作者: matt_d

Terminal-Bench團隊今日宣佈推出Terminal-Bench Challenges,這是一種全新的基準測試格式,旨在評估AI智慧體在長時間跨度、高token消耗的單任務上的能力。與最初專注於修復小型程式漏洞的Terminal-Bench不同,新挑戰要求智慧體從零開始自主構建整個程式碼庫,任務規模相當於人類專家團隊數月的勞動量。

首批發布的三個挑戰各具代表性:Rust編譯器加速任務要求智慧體改進Rust編譯速度,測試基準涵蓋52個crate;推理引擎程式碼高爾夫要求在一個25KB以下的C/CUDA檔案中實現可服務於Kimi 2.5模型的推理引擎;WASM WebGL渲染器則要求完全用JavaScript/WebAssembly構建一個無需瀏覽器或GPU即可執行WebGL程式的軟體渲染器。

在初步實驗中,頂級智慧體(如搭載Opus 4.8的Claude Code和Devin)的表現參差不齊。在Rust編譯器加速任務中,經過12小時執行,智慧體未能取得任何顯著改進,甚至導致效能倒退。推理引擎程式碼高爾夫任務中,智慧體花費大量時間糾正logprobs不匹配問題,但未能同時滿足正確性和檔案大小限制。WASM WebGL渲染器任務中,智慧體透過了約一半的測試用例:其中Fable 5驅動的Devin在WebGL 1.0上達到96.4%的測試覆蓋率,但在更難的WebGL 2.0上僅透過20.5%。

團隊觀察到了兩種典型的失敗模式:一是智慧體在嘗試一段時間後不願刪除大量程式碼並探索解空間的重大變更;二是智慧體會傾向於執行完整的測試套件(耗時超過20分鐘),而不是編寫針對當前更改的區域性測試。這些問題表明,在長時間自主執行中,智慧體在策略規劃和資源利用方面仍有巨大改進空間。

與之前的Terminal-Bench評估不同,新挑戰對智慧體環境(CPU、記憶體、儲存等)和智慧體本身(不設超時等)沒有嚴格限制。團隊採用Harbor任務格式進行標準化,並鼓勵多樣化的解決方案,包括多智慧體系統。參與者需提交包含最終輸出工件和完整智慧體日誌的倉庫,工件必須透過驗證套件,日誌需證明沒有人類提供額外指導或程式碼。

Terminal-Bench Challenges的推出標誌著智慧體評估工具的重要擴充套件。團隊表示,現有Terminal-Bench格式將繼續保留(Terminal-Bench 3.0正在開發中),兩種格式互補,共同用於理解智慧體的能力。此外,團隊計劃將長時間執行工作流中的核心困難壓縮為更小、更便宜的評估任務。專案得到了Modal和Cognition的支援,感興趣的開發者可加入Discord參與進一步挑戰的開發。