2026-06-17站内改写1 分钟阅读更新: 2026-06-17

人类仍在长期任务中击败人工智能

研究发现，在2022年为期两周的编程马拉松中，当前AI代理在24小时内性能趋于平缓，而顶尖人类在两周内持续提升。通过Elo评分与重复采样参考线的对比，表明人类在长期测试时适应方面仍远超AI代理。

本文探讨了AI代理在长期任务中的测试时扩展能力。尽管代理可以通过多次尝试和反馈来改进，但其性能提升是否真正源于更优的测试时策略，还是仅相当于重复采样？研究提出了一个简单模型：重复采样中，成功率随尝试次数呈线性增长（在Elo评分与对数尝试次数图中）。这一参考线可用于评估代理策略的优劣。

为了实证比较，研究者选取了2022年的AtCoder Heuristic Contest 014（RectJoin），这是一个长期编程优化竞赛。人类参赛者可在两周内不断提交代码并改进分数。实验中，AI代理（Claude Opus 4.6与GPT-5.5）在24小时内持续运行，并记录最佳成绩。结果显示，代理在最初几小时内快速提升，但约24小时后曲线趋于平缓；而顶尖人类选手虽然初始提升较慢，但在整个两周内持续爬升，最终大幅超越代理系统。

进一步分析表明，代理的Elo曲线相比重复采样参考线逐渐变得次线性，而人类的曲线则呈现超线性。这意味着人类不仅是在重复采样，而是采用了更高效的长期适应策略。研究强调，应使用重复采样作为基线，并持续以人类表现为目标，推动代理在长期任务中的测试时扩展。未来需要更多开放任务和更长的运行轨迹来深入理解代理的不足。

该研究还为测试时计算提供了新的视角：代理的测试时策略本质上是内在的，但当前策略的改进主要来自简单的重复采样，而非真正的自适应学习。人类的优势在于能够利用长期反馈和策略调整，这为未来AI代理的设计指明了方向。