AI News HubLIVE
站内改写2 分钟阅读

Terminal-Bench挑战:长周期、高token消耗、单任务基准测试

Terminal-Bench Challenges是一种新的基准测试格式,旨在测试智能体在需要人类专家数月完成的大规模、长周期任务上的表现。首批发布了三个挑战:Rust编译器加速、推理引擎代码高尔夫和WASM WebGL渲染器。初步实验显示智能体表现参差不齐,主要失败模式包括缺乏探索空间和过度使用测试套件。

来源Hacker News AI作者: matt_d

Terminal-Bench团队今日宣布推出Terminal-Bench Challenges,这是一种全新的基准测试格式,旨在评估AI智能体在长时间跨度、高token消耗的单任务上的能力。与最初专注于修复小型程序漏洞的Terminal-Bench不同,新挑战要求智能体从零开始自主构建整个代码库,任务规模相当于人类专家团队数月的劳动量。

首批发布的三个挑战各具代表性:Rust编译器加速任务要求智能体改进Rust编译速度,测试基准涵盖52个crate;推理引擎代码高尔夫要求在一个25KB以下的C/CUDA文件中实现可服务于Kimi 2.5模型的推理引擎;WASM WebGL渲染器则要求完全用JavaScript/WebAssembly构建一个无需浏览器或GPU即可运行WebGL程序的软件渲染器。

在初步实验中,顶级智能体(如搭载Opus 4.8的Claude Code和Devin)的表现参差不齐。在Rust编译器加速任务中,经过12小时运行,智能体未能取得任何显著改进,甚至导致性能倒退。推理引擎代码高尔夫任务中,智能体花费大量时间纠正logprobs不匹配问题,但未能同时满足正确性和文件大小限制。WASM WebGL渲染器任务中,智能体通过了约一半的测试用例:其中Fable 5驱动的Devin在WebGL 1.0上达到96.4%的测试覆盖率,但在更难的WebGL 2.0上仅通过20.5%。

团队观察到了两种典型的失败模式:一是智能体在尝试一段时间后不愿删除大量代码并探索解空间的重大变更;二是智能体会倾向于运行完整的测试套件(耗时超过20分钟),而不是编写针对当前更改的局部测试。这些问题表明,在长时间自主运行中,智能体在策略规划和资源利用方面仍有巨大改进空间。

与之前的Terminal-Bench评估不同,新挑战对智能体环境(CPU、内存、存储等)和智能体本身(不设超时等)没有严格限制。团队采用Harbor任务格式进行标准化,并鼓励多样化的解决方案,包括多智能体系统。参与者需提交包含最终输出工件和完整智能体日志的仓库,工件必须通过验证套件,日志需证明没有人类提供额外指导或代码。

Terminal-Bench Challenges的推出标志着智能体评估工具的重要扩展。团队表示,现有Terminal-Bench格式将继续保留(Terminal-Bench 3.0正在开发中),两种格式互补,共同用于理解智能体的能力。此外,团队计划将长时间运行工作流中的核心困难压缩为更小、更便宜的评估任务。项目得到了Modal和Cognition的支持,感兴趣的开发者可加入Discord参与进一步挑战的开发。