2026-05-24 16:06 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

研究人员让Claude Code发现人类可能不会设计的AI扩展算法

来自马里兰大学、谷歌、Meta等机构的研究人员通过AutoTTS框架，让一个编码代理自主发现了用于AI推理的控制算法。该算法相比标准的自一致性方法，在匹配精度的同时削减了约70%的计算开销。整个搜索过程仅花费40美元，耗时160分钟。

来源The Decoder作者: Jonathan Kemper

与其亲自编写更高效AI推理的规则，研究人员让一个编码代理在模拟环境中自主寻找更好的控制算法。结果不仅超越了现有方法，还大幅降低了计算消耗。

测试时扩展（TTS）旨在通过让大型语言模型在生成响应时投入更多计算资源（例如并行运行多个解决方案路径或延长思维链）来提升性能。此前，几乎都是由人类编写的规则来决定模型何时启动新路径、加强某个有希望的路径或终止它。

来自马里兰大学、弗吉尼亚大学、华盛顿大学圣路易斯分校、北卡罗来纳大学教堂山分校、谷歌和Meta的研究团队通过AutoTTS颠覆了这一范式。人类不再直接编写算法，而是构建一个“游乐场”，让AI代理自主发现算法。

论文指出，许多已知方法实际上只是共享控制空间中的特例，该空间由宽度（同时运行的路径数）和深度（每条路径的延伸程度）定义。作者们质疑：既然这样，为什么研究人员还要手动规划路径，而不是让机器来搜索？

模拟搜索降低成本

AutoTTS的核心是一个离线环境。对于每个任务，团队预先从语言模型生成多条解决方案路径并存储。新的控制算法基于已有数据决定如何分配计算资源。这样，数千种变体可以运行而无需每次启动实际的语言模型。

Claude Code负责搜索。经过多轮迭代，代理回顾之前的尝试，识别弱点，并直接以代码形式编写新控制算法。为避免搜索陷入数千个微调参数，每个提案只能暴露一个高级控制器，由它自行设置所有其他阈值。此外，完整日志让代理了解之前尝试在哪里浪费了计算。

代理编写的算法超越人类设计

在AIME和HMMT等数学基准测试中，代理提出的算法在每单位计算下的准确性优于现有方法。在低资源设置下，与标准的自一致性方法（生成64个答案并多数投票）相比，令牌使用量削减约70%，准确性保持不变。

该算法还能迁移到不同模型（DeepSeek-R1-Distill-Llama-8B）和非数学基准（GPQA-Diamond）。整个发现过程仅花费约40美元，耗时160分钟。

人类可能不会想到的逻辑

比原始数字更有趣的是发现程序的实际工作方式。它追踪模型在多轮中的置信度变化。其他方法在答案多数票达到阈值时立即终止。

如果置信度几乎不变，算法会开启更多路径；如果快速上升，则跳过新路径。与当前多数结果一致的临时路径获得额外计算资源。算法只丢弃那些在多轮中持续偏离正确方向的路径。

作者称这种协调机制几乎不可能通过手工设计。消融研究表明，两个设计选择至关重要：去掉单一高级控制器，代理会退回到极端捷径，在测试中节省大量计算但损害新任务的准确性；没有详细日志，发现的算法消耗更多计算且准确性更差，仅靠最终结果无法诊断问题。

从编写算法到构建搜索空间

作者将AutoTTS置于FunSearch、AlphaEvolve和ADAS等工作序列中，这些工作都利用语言模型作为程序搜索器。新意在于将这一思想应用于测试时扩展，此前该领域主要依赖手工设计。

当前版本仅涵盖宽度与深度之间的权衡，无法处理树搜索等更复杂结构。发现的质量也取决于编码代理——作者未说明开源替代方案是否同样有效。

更重要的启示是，这项研究将人类的角色从设计规则转变为搭建搜索环境。实际的策略则作为语言模型编写和优化的代码涌现出来。

早在2024年，Hugging Face的研究人员就展示了小型语言模型通过智能测试时计算扩展可以匹敌更大模型，尽管搜索策略仍由手工设计。Meta及其合作伙伴最近引入了超代理（hyperagents），即能自我优化改进过程的AI系统。