估計前沿AI模型無思維鏈任務完成時間跨度
新研究估計前沿AI模型在沒有思維鏈的情況下能進行多長時間的推理,發現每373天翻一番,到2030年可能達到約25分鐘的隱藏推理,引發對監控有效性的擔憂。
一項由Redwood Research、Astra Fellows Program、Aether Research和MATS聯合進行的新研究,系統評估了從GPT-2(2019年)到GPT-5.5(2026年)的14個前沿模型在沒有思維鏈(Chain-of-Thought, CoT)情況下的任務完成時間跨度(Time Horizon, TH)。研究發現,無CoT時間跨度每373天翻一番(95%置信區間:167–691天),而推理標記跨度每437天翻一番(95%置信區間:341–571天)。GPT-5.5處於當前前沿,其50%無CoT時間跨度約為3分鐘,推理標記跨度約為1500個o3-mini標記。
研究方法上,團隊在43個基準測試上評估模型,涵蓋數學、編程、知識、智能體工具使用以及安全相關的問題(如隱寫和陰謀推理)。所有測試均通過特定提示和結構化輸出約束,防止模型在回答前發出推理標記。問題難度通過兩種獨立方式估計:人類解決時間(有計算器和紙筆但無語言模型輔助的平均時間)和推理標記錨點(o3-mini解決該問題所需的最小推理標記數)。對於每個模型,團隊使用邏輯曲線擬合成功率相對於對數人類解決時間或對數推理標記錨點,從而確定50%解決時間跨度。不確定性通過10,000次自舉重採樣進行估計。
研究結果在排除GPT-2和GPT-3後仍然穩健,即使改變基準分佈、僅使用有人類時間數據的問題、剔除任何單個模型或按問題領域細分(各領域翻倍時間在246至387天之間),翻倍趨勢基本不變。這與Kwa等人報告的帶CoT時間跨度每182天翻一番的趨勢形成對比,Kwa等人的翻倍速度約為本研究的兩倍。差異主要源於GPT-4之後的大部分能力提升來自外部化推理(即通過CoT),而非單次前向傳遞中的更多推理。
研究FAQ部分澄清了幾個關鍵點:該測量並非純粹追蹤推理,因為基準包含事實回憶問題,但主要反映推理能力;研究並未聲稱當前模型實際隱藏推理,而是測量它們在不發出推理標記的情況下可能完成多少推理;模型可能通過將推理編碼到看似無害的輸出中(隱寫)來超過這一下限。因此,無CoT時間跨度代表模型不透明推理的下界。
研究結論指出,前沿模型無需任何思維鏈即可進行非平凡量的推理,且該量呈指數增長。3分鐘的人類等效推理可能足以用於某些單次決策(如是否遵守指令、某場景是否類似評估等),但不足以進行復雜的長期權力追求推理。如果趨勢持續,到2030年模型可能具備約25分鐘的無CoT推理能力,這將使更具顛覆性的行為成為可能,且即使沒有神經語言,CoT監控的有效性也可能在未來幾年內大幅降低。論文作者呼籲AI公司明確追蹤無CoT時間跨度,以發現模型可能在不暴露給CoT監控或人類的情況下進行多少推理。