Terminal-Bench挑戰:長週期、高token消耗、單任務基準測試
Terminal-Bench Challenges是一種新的基準測試格式,旨在測試智能體在需要人類專家數月完成的大規模、長週期任務上的表現。首批發布了三個挑戰:Rust編譯器加速、推理引擎代碼高爾夫和WASM WebGL渲染器。初步實驗顯示智能體表現參差不齊,主要失敗模式包括缺乏探索空間和過度使用測試套件。
Terminal-Bench團隊今日宣佈推出Terminal-Bench Challenges,這是一種全新的基準測試格式,旨在評估AI智能體在長時間跨度、高token消耗的單任務上的能力。與最初專注於修復小型程序漏洞的Terminal-Bench不同,新挑戰要求智能體從零開始自主構建整個代碼庫,任務規模相當於人類專家團隊數月的勞動量。
首批發布的三個挑戰各具代表性:Rust編譯器加速任務要求智能體改進Rust編譯速度,測試基準涵蓋52個crate;推理引擎代碼高爾夫要求在一個25KB以下的C/CUDA文件中實現可服務於Kimi 2.5模型的推理引擎;WASM WebGL渲染器則要求完全用JavaScript/WebAssembly構建一個無需瀏覽器或GPU即可運行WebGL程序的軟件渲染器。
在初步實驗中,頂級智能體(如搭載Opus 4.8的Claude Code和Devin)的表現參差不齊。在Rust編譯器加速任務中,經過12小時運行,智能體未能取得任何顯著改進,甚至導致性能倒退。推理引擎代碼高爾夫任務中,智能體花費大量時間糾正logprobs不匹配問題,但未能同時滿足正確性和文件大小限制。WASM WebGL渲染器任務中,智能體通過了約一半的測試用例:其中Fable 5驅動的Devin在WebGL 1.0上達到96.4%的測試覆蓋率,但在更難的WebGL 2.0上僅通過20.5%。
團隊觀察到了兩種典型的失敗模式:一是智能體在嘗試一段時間後不願刪除大量代碼並探索解空間的重大變更;二是智能體會傾向於運行完整的測試套件(耗時超過20分鐘),而不是編寫針對當前更改的局部測試。這些問題表明,在長時間自主運行中,智能體在策略規劃和資源利用方面仍有巨大改進空間。
與之前的Terminal-Bench評估不同,新挑戰對智能體環境(CPU、內存、存儲等)和智能體本身(不設超時等)沒有嚴格限制。團隊採用Harbor任務格式進行標準化,並鼓勵多樣化的解決方案,包括多智能體系統。參與者需提交包含最終輸出工件和完整智能體日誌的倉庫,工件必須通過驗證套件,日誌需證明沒有人類提供額外指導或代碼。
Terminal-Bench Challenges的推出標誌着智能體評估工具的重要擴展。團隊表示,現有Terminal-Bench格式將繼續保留(Terminal-Bench 3.0正在開發中),兩種格式互補,共同用於理解智能體的能力。此外,團隊計劃將長時間運行工作流中的核心困難壓縮為更小、更便宜的評估任務。項目得到了Modal和Cognition的支持,感興趣的開發者可加入Discord參與進一步挑戰的開發。