人類仍在長期任務中擊敗人工智能
研究發現,在2022年為期兩週的編程馬拉松中,當前AI代理在24小時內性能趨於平緩,而頂尖人類在兩週內持續提升。通過Elo評分與重複採樣參考線的對比,表明人類在長期測試時適應方面仍遠超AI代理。
本文探討了AI代理在長期任務中的測試時擴展能力。儘管代理可以通過多次嘗試和反饋來改進,但其性能提升是否真正源於更優的測試時策略,還是僅相當於重複採樣?研究提出了一個簡單模型:重複採樣中,成功率隨嘗試次數呈線性增長(在Elo評分與對數嘗試次數圖中)。這一參考線可用於評估代理策略的優劣。
為了實證比較,研究者選取了2022年的AtCoder Heuristic Contest 014(RectJoin),這是一個長期編程優化競賽。人類參賽者可在兩週內不斷提交代碼並改進分數。實驗中,AI代理(Claude Opus 4.6與GPT-5.5)在24小時內持續運行,並記錄最佳成績。結果顯示,代理在最初幾小時內快速提升,但約24小時後曲線趨於平緩;而頂尖人類選手雖然初始提升較慢,但在整個兩週內持續爬升,最終大幅超越代理系統。
進一步分析表明,代理的Elo曲線相比重複採樣參考線逐漸變得次線性,而人類的曲線則呈現超線性。這意味着人類不僅是在重複採樣,而是採用了更高效的長期適應策略。研究強調,應使用重複採樣作為基線,並持續以人類表現為目標,推動代理在長期任務中的測試時擴展。未來需要更多開放任務和更長的運行軌跡來深入理解代理的不足。
該研究還為測試時計算提供了新的視角:代理的測試時策略本質上是內在的,但當前策略的改進主要來自簡單的重複採樣,而非真正的自適應學習。人類的優勢在於能夠利用長期反饋和策略調整,這為未來AI代理的設計指明瞭方向。