2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

人類仍在長期任務中擊敗人工智慧

研究發現，在2022年為期兩週的程式設計馬拉松中，當前AI代理在24小時內效能趨於平緩，而頂尖人類在兩週內持續提升。透過Elo評分與重複取樣參考線的對比，表明人類在長期測試時適應方面仍遠超AI代理。

本文探討了AI代理在長期任務中的測試時擴充套件能力。儘管代理可以透過多次嘗試和反饋來改進，但其效能提升是否真正源於更優的測試時策略，還是僅相當於重複取樣？研究提出了一個簡單模型：重複取樣中，成功率隨嘗試次數呈線性增長（在Elo評分與對數嘗試次數圖中）。這一參考線可用於評估代理策略的優劣。

為了實證比較，研究者選取了2022年的AtCoder Heuristic Contest 014（RectJoin），這是一個長期程式設計最佳化競賽。人類參賽者可在兩週內不斷提交程式碼並改進分數。實驗中，AI代理（Claude Opus 4.6與GPT-5.5）在24小時內持續執行，並記錄最佳成績。結果顯示，代理在最初幾小時內快速提升，但約24小時後曲線趨於平緩；而頂尖人類選手雖然初始提升較慢，但在整個兩週內持續爬升，最終大幅超越代理系統。

進一步分析表明，代理的Elo曲線相比重複取樣參考線逐漸變得次線性，而人類的曲線則呈現超線性。這意味著人類不僅是在重複取樣，而是採用了更高效的長期適應策略。研究強調，應使用重複取樣作為基線，並持續以人類表現為目標，推動代理在長期任務中的測試時擴充套件。未來需要更多開放任務和更長的執行軌跡來深入理解代理的不足。

該研究還為測試時計算提供了新的視角：代理的測試時策略本質上是內在的，但當前策略的改進主要來自簡單的重複取樣，而非真正的自適應學習。人類的優勢在於能夠利用長期反饋和策略調整，這為未來AI代理的設計指明瞭方向。