AI News HubLIVE
站内改写

研究人員讓Claude Code發現人類可能不會設計的AI擴充套件演算法

來自馬里蘭大學、谷歌、Meta等機構的研究人員透過AutoTTS框架,讓一個編碼代理自主發現了用於AI推理的控制演算法。該演算法相比標準的自一致性方法,在匹配精度的同時削減了約70%的計算開銷。整個搜尋過程僅花費40美元,耗時160分鐘。

文章情報

工程師進階

要點

  • AutoTTS透過離線環境模擬,讓編碼代理自主搜尋測試時擴充套件演算法,無需人類手動編寫規則。
  • 發現的演算法在數學基準測試中,以更低計算成本達到或超越人類設計的自一致性方法。
  • 演算法透過跟蹤模型置信度變化動態調整推理路徑,而非簡單依賴多數投票。
  • 研究標誌著AI演算法設計從人類編寫規則轉向構建搜尋空間。

為什麼重要

這條新聞值得關注,因為AutoTTS透過離線環境模擬,讓編碼代理自主搜尋測試時擴充套件演算法,無需人類手動編寫規則。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

與其親自編寫更高效AI推理的規則,研究人員讓一個編碼代理在模擬環境中自主尋找更好的控制演算法。結果不僅超越了現有方法,還大幅降低了計算消耗。

測試時擴充套件(TTS)旨在透過讓大型語言模型在生成響應時投入更多計算資源(例如並行執行多個解決方案路徑或延長思維鏈)來提升效能。此前,幾乎都是由人類編寫的規則來決定模型何時啟動新路徑、加強某個有希望的路徑或終止它。

來自馬里蘭大學、弗吉尼亞大學、華盛頓大學聖路易斯分校、北卡羅來納大學教堂山分校、谷歌和Meta的研究團隊透過AutoTTS顛覆了這一正規化。人類不再直接編寫演算法,而是構建一個“遊樂場”,讓AI代理自主發現演算法。

論文指出,許多已知方法實際上只是共享控制空間中的特例,該空間由寬度(同時執行的路徑數)和深度(每條路徑的延伸程度)定義。作者們質疑:既然這樣,為什麼研究人員還要手動規劃路徑,而不是讓機器來搜尋?

**模擬搜尋降低成本**

AutoTTS的核心是一個離線環境。對於每個任務,團隊預先從語言模型生成多條解決方案路徑並儲存。新的控制演算法基於已有資料決定如何分配計算資源。這樣,數千種變體可以執行而無需每次啟動實際的語言模型。

Claude Code負責搜尋。經過多輪迭代,代理回顧之前的嘗試,識別弱點,並直接以程式碼形式編寫新控制演算法。為避免搜尋陷入數千個微調引數,每個提案只能暴露一個高階控制器,由它自行設定所有其他閾值。此外,完整日誌讓代理瞭解之前嘗試在哪裡浪費了計算。

**代理編寫的演算法超越人類設計**

在AIME和HMMT等數學基準測試中,代理提出的演算法在每單位計算下的準確性優於現有方法。在低資源設定下,與標準的自一致性方法(生成64個答案並多數投票)相比,令牌使用量削減約70%,準確性保持不變。

該演算法還能遷移到不同模型(DeepSeek-R1-Distill-Llama-8B)和非數學基準(GPQA-Diamond)。整個發現過程僅花費約40美元,耗時160分鐘。

**人類可能不會想到的邏輯**

比原始數字更有趣的是發現程式的實際工作方式。它追蹤模型在多輪中的置信度變化。其他方法在答案多數票達到閾值時立即終止。

如果置信度幾乎不變,演算法會開啟更多路徑;如果快速上升,則跳過新路徑。與當前多數結果一致的臨時路徑獲得額外計算資源。演算法只丟棄那些在多輪中持續偏離正確方向的路徑。

作者稱這種協調機制幾乎不可能透過手工設計。消融研究表明,兩個設計選擇至關重要:去掉單一高階控制器,代理會退回到極端捷徑,在測試中節省大量計算但損害新任務的準確性;沒有詳細日誌,發現的演算法消耗更多計算且準確性更差,僅靠最終結果無法診斷問題。

**從編寫演算法到構建搜尋空間**

作者將AutoTTS置於FunSearch、AlphaEvolve和ADAS等工作序列中,這些工作都利用語言模型作為程式搜尋器。新意在於將這一思想應用於測試時擴充套件,此前該領域主要依賴手工設計。

當前版本僅涵蓋寬度與深度之間的權衡,無法處理樹搜尋等更復雜結構。發現的質量也取決於編碼代理——作者未說明開源替代方案是否同樣有效。

更重要的啟示是,這項研究將人類的角色從設計規則轉變為搭建搜尋環境。實際的策略則作為語言模型編寫和最佳化的程式碼湧現出來。

早在2024年,Hugging Face的研究人員就展示了小型語言模型透過智慧測試時計算擴充套件可以匹敵更大模型,儘管搜尋策略仍由手工設計。Meta及其合作伙伴最近引入了超代理(hyperagents),即能自我最佳化改進過程的AI系統。