人類仍在長期任務中擊敗人工智慧
研究發現,在2022年為期兩週的程式設計馬拉松中,當前AI代理在24小時內效能趨於平緩,而頂尖人類在兩週內持續提升。透過Elo評分與重複取樣參考線的對比,表明人類在長期測試時適應方面仍遠超AI代理。
本文探討了AI代理在長期任務中的測試時擴充套件能力。儘管代理可以透過多次嘗試和反饋來改進,但其效能提升是否真正源於更優的測試時策略,還是僅相當於重複取樣?研究提出了一個簡單模型:重複取樣中,成功率隨嘗試次數呈線性增長(在Elo評分與對數嘗試次數圖中)。這一參考線可用於評估代理策略的優劣。
為了實證比較,研究者選取了2022年的AtCoder Heuristic Contest 014(RectJoin),這是一個長期程式設計最佳化競賽。人類參賽者可在兩週內不斷提交程式碼並改進分數。實驗中,AI代理(Claude Opus 4.6與GPT-5.5)在24小時內持續執行,並記錄最佳成績。結果顯示,代理在最初幾小時內快速提升,但約24小時後曲線趨於平緩;而頂尖人類選手雖然初始提升較慢,但在整個兩週內持續爬升,最終大幅超越代理系統。
進一步分析表明,代理的Elo曲線相比重複取樣參考線逐漸變得次線性,而人類的曲線則呈現超線性。這意味著人類不僅是在重複取樣,而是採用了更高效的長期適應策略。研究強調,應使用重複取樣作為基線,並持續以人類表現為目標,推動代理在長期任務中的測試時擴充套件。未來需要更多開放任務和更長的執行軌跡來深入理解代理的不足。
該研究還為測試時計算提供了新的視角:代理的測試時策略本質上是內在的,但當前策略的改進主要來自簡單的重複取樣,而非真正的自適應學習。人類的優勢在於能夠利用長期反饋和策略調整,這為未來AI代理的設計指明瞭方向。