2026-07-05 00:04 UTC+8站内改写3 分钟阅读更新: 2026-07-05 00:11 UTC+8

NVIDIA HORIZON：一种免手动代理框架，利用Git工作树实现RTL基准测试100%完成率

NVIDIA Research推出HORIZON，一种免手动代理框架，将硬件设计视为基于Git工作树的仓库级代码演化。该框架在所有评估的RTL基准测试中达到100%通过率，但团队指出代理式硬件设计尚未完全解决。

来源MarkTechPost作者: Asif Razzaq

NVIDIA Research发布了HORIZON，一种用于硬件设计的免手动代理框架。该框架将硬件设计视为仓库级代码演化，每个寄存器传输级（RTL）问题被托管为一个版本化仓库。研究团队通过结构化的Markdown框架生成项目包，随后一个自包含的代理循环在隔离的Git工作树上进行演化。只有在可执行的验收门通过时，才会提交一个新版本。

研究团队报告称，在所有评估的RTL基准测试套件上，完成率达到100%。但他们也明确指出，代理式硬件设计尚未完全解决。

什么是HORIZON？

单轮代码生成在执行设计任务时存在明显限制。仅生成看似合理的Verilog不足以构建真实硬件，正确性取决于周期级行为、复位约定、位宽和仿真器反馈。HORIZON将每个设计问题托管为版本控制仓库，而非一次性提示。唯一需要的输入是一个结构化Markdown框架，包含四个组件：目标、领域知识指导、评估器规范和验收谓词。

引导代理将框架编译为项目包，用数学符号表示为p = (πagent, Ep, Ap, Γp, Ωp)，涵盖代理策略、可执行评估器、验收谓词、版本控制策略和领域技能。对于RTL，评估器Ep可能包括编译、仿真、覆盖率提取以及断言或测试台检查。在其他领域，同一插槽可容纳单元测试、定理证明器、性能分析工具或综合工具。因此，问题是在Git工作树上定义的，而非固定仓库类型。

仓库级循环如何工作

引导后，循环无需进一步人工干预即可运行。每个周期规划目标、编辑工作树、调用工具并运行评估器。然后验收谓词决定是提交新版本还是记录失败。Git作为基础，差异显示提议的状态更改，提交定义接受的检查点，笔记附加评估器证据，日志恢复完整轨迹。

循环依赖原生Git命令以保持低成本。暂存编辑通过git diff --cached检查。每次接受的尝试成为一次Git提交，其笔记包含判定结果和奖励。成功的提交成为正面修复示例，被拒绝的尝试记录为负面示例。仓库历史即经验缓冲区，无需单独的数据存储。

研究团队借用了半马尔可夫决策过程的词汇来描述记录对象。一个“状态”是仓库的版本化快照，一个“选项”是两个检查点之间的一次情节。HORIZON在此工作中不训练或更新策略，代理骨架在整个过程中保持固定。

会话重用降低了成本。HORIZON在整个迭代过程中保持持久模型会话。框架、项目包和稳定源从提供商的提示缓存中提供。新计费的令牌主要由当前差异和最新评估器输出构成。

HORIZON在自演化系统中的位置

HORIZON扩展了仓库级自演化系统的谱系。早期系统演化工程师运行的软件，而HORIZON演化工程师创建的硬件工件。四个共享原则：仅当有可执行证据支持时，才接受候选更改。

基准测试结果

所有实验使用固定的GPT-5.3骨干网络。每个结果使用单代理免手动模式。实验在AMD EPYC 9334 32核主机上运行，内存512 GB。评估涵盖ChipBench、RTLLM-2.0和Verilog-Eval，并新增九个CVDP代码和验证生成类别（CID 002至016）。CVDP包含783个人工编写的问题。

一次迭代是一个自动化的外部步骤：代理编辑工作树、运行评估器，然后提交通过或记录拒绝。HORIZON在每个套件上达到100%通过率。唯一残留的错误是ChipBench规范框架缺陷，非代理失败。

首次迭代通过率为47.8%。迭代0不是独立的Pass@1测量，而是首次代理迭代后的仓库状态。代理可能将调试和修复推迟到后续迭代。

收敛难度在各类别间差异很大。RTLLM-2.0和Verilog-Eval在两次迭代内达到100%。检查器生成（CID 013）起始仅3.8%，但稳步攀升至100%。代码完成（CID 002）需要82次迭代，其长尾是最高的令牌成本。

令牌消耗

一旦正确性饱和，令牌消耗成为更有信息的信号。三个传统套件共使用600万令牌，九个CVDP类别使用2.039亿令牌（占97.1%）。CID 002单独使用5600万令牌。约91%的令牌是缓存输入，显著降低了API成本。因此，研究团队将令牌效率视为最需要改进的指标。

使用示例

评估的类别直接映射到日常RTL工作：RTL代码完成、自然语言规范到RTL、修改和模块重用、linting和QoR改进、验证生成、调试。检查器生成是一个具体例子：单次模型难以处理，起始仅3.8%，而HORIZON通过迭代对抗商业EDA仿真直到检查器通过。

框架示例

用户输入是Markdown框架，而非代码。以下骨架说明四个组件：目标（实现同步FIFO，深度16，8位数据），领域知识指导（复位同步高有效，full和empty不能同时断言），评估器规范（编译、仿真、覆盖率提取），验收谓词（仿真零不匹配）。然后循环使用Git操作驱动仓库。

优势与局限

优势：一个协议覆盖生成、完成和修复；框架对底层生成器或骨干网络无关；原生Git使追踪和重放几乎免费；会话重用保持每次迭代的边际成本低。局限：奖励反馈界面允许过度求解或奖励黑客；这些基准是受控代理；反馈周转快，但面向PPA的循环可能耗时数天或数周；覆盖率是观测性的，非目标；综合质量结果未优化。研究团队建议未来基准使用两级协议：修复期间暴露诊断反馈，保留隐藏随机测试用于最终评分。

关键要点

HORIZON通过隔离Git工作树管理RTL设计作为仓库级代码演化。Markdown框架编译为项目包，包含评估器、验收谓词、Git策略和领域技能。在所有评估套件上达到100%通过率；唯一失败是基准缺陷。约91%的令牌是缓存输入，成本集中在少数困难的CVDP类别。研究团队未声称硬件设计已解决；奖励黑客和长周转奖励仍是开放问题。