人类仍在长期任务中击败人工智能
研究发现,在2022年为期两周的编程马拉松中,当前AI代理在24小时内性能趋于平缓,而顶尖人类在两周内持续提升。通过Elo评分与重复采样参考线的对比,表明人类在长期测试时适应方面仍远超AI代理。
本文探讨了AI代理在长期任务中的测试时扩展能力。尽管代理可以通过多次尝试和反馈来改进,但其性能提升是否真正源于更优的测试时策略,还是仅相当于重复采样?研究提出了一个简单模型:重复采样中,成功率随尝试次数呈线性增长(在Elo评分与对数尝试次数图中)。这一参考线可用于评估代理策略的优劣。
为了实证比较,研究者选取了2022年的AtCoder Heuristic Contest 014(RectJoin),这是一个长期编程优化竞赛。人类参赛者可在两周内不断提交代码并改进分数。实验中,AI代理(Claude Opus 4.6与GPT-5.5)在24小时内持续运行,并记录最佳成绩。结果显示,代理在最初几小时内快速提升,但约24小时后曲线趋于平缓;而顶尖人类选手虽然初始提升较慢,但在整个两周内持续爬升,最终大幅超越代理系统。
进一步分析表明,代理的Elo曲线相比重复采样参考线逐渐变得次线性,而人类的曲线则呈现超线性。这意味着人类不仅是在重复采样,而是采用了更高效的长期适应策略。研究强调,应使用重复采样作为基线,并持续以人类表现为目标,推动代理在长期任务中的测试时扩展。未来需要更多开放任务和更长的运行轨迹来深入理解代理的不足。
该研究还为测试时计算提供了新的视角:代理的测试时策略本质上是内在的,但当前策略的改进主要来自简单的重复采样,而非真正的自适应学习。人类的优势在于能够利用长期反馈和策略调整,这为未来AI代理的设计指明了方向。