2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

人類仍在長期任務中擊敗人工智能

研究發現，在2022年為期兩週的編程馬拉松中，當前AI代理在24小時內性能趨於平緩，而頂尖人類在兩週內持續提升。通過Elo評分與重複採樣參考線的對比，表明人類在長期測試時適應方面仍遠超AI代理。

本文探討了AI代理在長期任務中的測試時擴展能力。儘管代理可以通過多次嘗試和反饋來改進，但其性能提升是否真正源於更優的測試時策略，還是僅相當於重複採樣？研究提出了一個簡單模型：重複採樣中，成功率隨嘗試次數呈線性增長（在Elo評分與對數嘗試次數圖中）。這一參考線可用於評估代理策略的優劣。

為了實證比較，研究者選取了2022年的AtCoder Heuristic Contest 014（RectJoin），這是一個長期編程優化競賽。人類參賽者可在兩週內不斷提交代碼並改進分數。實驗中，AI代理（Claude Opus 4.6與GPT-5.5）在24小時內持續運行，並記錄最佳成績。結果顯示，代理在最初幾小時內快速提升，但約24小時後曲線趨於平緩；而頂尖人類選手雖然初始提升較慢，但在整個兩週內持續爬升，最終大幅超越代理系統。

進一步分析表明，代理的Elo曲線相比重複採樣參考線逐漸變得次線性，而人類的曲線則呈現超線性。這意味着人類不僅是在重複採樣，而是採用了更高效的長期適應策略。研究強調，應使用重複採樣作為基線，並持續以人類表現為目標，推動代理在長期任務中的測試時擴展。未來需要更多開放任務和更長的運行軌跡來深入理解代理的不足。

該研究還為測試時計算提供了新的視角：代理的測試時策略本質上是內在的，但當前策略的改進主要來自簡單的重複採樣，而非真正的自適應學習。人類的優勢在於能夠利用長期反饋和策略調整，這為未來AI代理的設計指明瞭方向。