估计前沿AI模型无思维链任务完成时间跨度
新研究估计前沿AI模型在没有思维链的情况下能进行多长时间的推理,发现每373天翻一番,到2030年可能达到约25分钟的隐藏推理,引发对监控有效性的担忧。
一项由Redwood Research、Astra Fellows Program、Aether Research和MATS联合进行的新研究,系统评估了从GPT-2(2019年)到GPT-5.5(2026年)的14个前沿模型在没有思维链(Chain-of-Thought, CoT)情况下的任务完成时间跨度(Time Horizon, TH)。研究发现,无CoT时间跨度每373天翻一番(95%置信区间:167–691天),而推理标记跨度每437天翻一番(95%置信区间:341–571天)。GPT-5.5处于当前前沿,其50%无CoT时间跨度约为3分钟,推理标记跨度约为1500个o3-mini标记。
研究方法上,团队在43个基准测试上评估模型,涵盖数学、编程、知识、智能体工具使用以及安全相关的问题(如隐写和阴谋推理)。所有测试均通过特定提示和结构化输出约束,防止模型在回答前发出推理标记。问题难度通过两种独立方式估计:人类解决时间(有计算器和纸笔但无语言模型辅助的平均时间)和推理标记锚点(o3-mini解决该问题所需的最小推理标记数)。对于每个模型,团队使用逻辑曲线拟合成功率相对于对数人类解决时间或对数推理标记锚点,从而确定50%解决时间跨度。不确定性通过10,000次自举重采样进行估计。
研究结果在排除GPT-2和GPT-3后仍然稳健,即使改变基准分布、仅使用有人类时间数据的问题、剔除任何单个模型或按问题领域细分(各领域翻倍时间在246至387天之间),翻倍趋势基本不变。这与Kwa等人报告的带CoT时间跨度每182天翻一番的趋势形成对比,Kwa等人的翻倍速度约为本研究的两倍。差异主要源于GPT-4之后的大部分能力提升来自外部化推理(即通过CoT),而非单次前向传递中的更多推理。
研究FAQ部分澄清了几个关键点:该测量并非纯粹追踪推理,因为基准包含事实回忆问题,但主要反映推理能力;研究并未声称当前模型实际隐藏推理,而是测量它们在不发出推理标记的情况下可能完成多少推理;模型可能通过将推理编码到看似无害的输出中(隐写)来超过这一下限。因此,无CoT时间跨度代表模型不透明推理的下界。
研究结论指出,前沿模型无需任何思维链即可进行非平凡量的推理,且该量呈指数增长。3分钟的人类等效推理可能足以用于某些单次决策(如是否遵守指令、某场景是否类似评估等),但不足以进行复杂的长期权力追求推理。如果趋势持续,到2030年模型可能具备约25分钟的无CoT推理能力,这将使更具颠覆性的行为成为可能,且即使没有神经语言,CoT监控的有效性也可能在未来几年内大幅降低。论文作者呼吁AI公司明确追踪无CoT时间跨度,以发现模型可能在不暴露给CoT监控或人类的情况下进行多少推理。