NVIDIA HORIZON:一种免手动代理框架,利用Git工作树实现RTL基准测试100%完成率
NVIDIA Research推出HORIZON,一种免手动代理框架,将硬件设计视为基于Git工作树的仓库级代码演化。该框架在所有评估的RTL基准测试中达到100%通过率,但团队指出代理式硬件设计尚未完全解决。
NVIDIA Research发布了HORIZON,一种用于硬件设计的免手动代理框架。该框架将硬件设计视为仓库级代码演化,每个寄存器传输级(RTL)问题被托管为一个版本化仓库。研究团队通过结构化的Markdown框架生成项目包,随后一个自包含的代理循环在隔离的Git工作树上进行演化。只有在可执行的验收门通过时,才会提交一个新版本。
研究团队报告称,在所有评估的RTL基准测试套件上,完成率达到100%。但他们也明确指出,代理式硬件设计尚未完全解决。
什么是HORIZON?
单轮代码生成在执行设计任务时存在明显限制。仅生成看似合理的Verilog不足以构建真实硬件,正确性取决于周期级行为、复位约定、位宽和仿真器反馈。HORIZON将每个设计问题托管为版本控制仓库,而非一次性提示。唯一需要的输入是一个结构化Markdown框架,包含四个组件:目标、领域知识指导、评估器规范和验收谓词。
引导代理将框架编译为项目包,用数学符号表示为p = (πagent, Ep, Ap, Γp, Ωp),涵盖代理策略、可执行评估器、验收谓词、版本控制策略和领域技能。对于RTL,评估器Ep可能包括编译、仿真、覆盖率提取以及断言或测试台检查。在其他领域,同一插槽可容纳单元测试、定理证明器、性能分析工具或综合工具。因此,问题是在Git工作树上定义的,而非固定仓库类型。
仓库级循环如何工作
引导后,循环无需进一步人工干预即可运行。每个周期规划目标、编辑工作树、调用工具并运行评估器。然后验收谓词决定是提交新版本还是记录失败。Git作为基础,差异显示提议的状态更改,提交定义接受的检查点,笔记附加评估器证据,日志恢复完整轨迹。
循环依赖原生Git命令以保持低成本。暂存编辑通过git diff --cached检查。每次接受的尝试成为一次Git提交,其笔记包含判定结果和奖励。成功的提交成为正面修复示例,被拒绝的尝试记录为负面示例。仓库历史即经验缓冲区,无需单独的数据存储。
研究团队借用了半马尔可夫决策过程的词汇来描述记录对象。一个“状态”是仓库的版本化快照,一个“选项”是两个检查点之间的一次情节。HORIZON在此工作中不训练或更新策略,代理骨架在整个过程中保持固定。
会话重用降低了成本。HORIZON在整个迭代过程中保持持久模型会话。框架、项目包和稳定源从提供商的提示缓存中提供。新计费的令牌主要由当前差异和最新评估器输出构成。
HORIZON在自演化系统中的位置
HORIZON扩展了仓库级自演化系统的谱系。早期系统演化工程师运行的软件,而HORIZON演化工程师创建的硬件工件。四个共享原则:仅当有可执行证据支持时,才接受候选更改。
基准测试结果
所有实验使用固定的GPT-5.3骨干网络。每个结果使用单代理免手动模式。实验在AMD EPYC 9334 32核主机上运行,内存512 GB。评估涵盖ChipBench、RTLLM-2.0和Verilog-Eval,并新增九个CVDP代码和验证生成类别(CID 002至016)。CVDP包含783个人工编写的问题。
一次迭代是一个自动化的外部步骤:代理编辑工作树、运行评估器,然后提交通过或记录拒绝。HORIZON在每个套件上达到100%通过率。唯一残留的错误是ChipBench规范框架缺陷,非代理失败。
首次迭代通过率为47.8%。迭代0不是独立的Pass@1测量,而是首次代理迭代后的仓库状态。代理可能将调试和修复推迟到后续迭代。
收敛难度在各类别间差异很大。RTLLM-2.0和Verilog-Eval在两次迭代内达到100%。检查器生成(CID 013)起始仅3.8%,但稳步攀升至100%。代码完成(CID 002)需要82次迭代,其长尾是最高的令牌成本。
令牌消耗
一旦正确性饱和,令牌消耗成为更有信息的信号。三个传统套件共使用600万令牌,九个CVDP类别使用2.039亿令牌(占97.1%)。CID 002单独使用5600万令牌。约91%的令牌是缓存输入,显著降低了API成本。因此,研究团队将令牌效率视为最需要改进的指标。
使用示例
评估的类别直接映射到日常RTL工作:RTL代码完成、自然语言规范到RTL、修改和模块重用、linting和QoR改进、验证生成、调试。检查器生成是一个具体例子:单次模型难以处理,起始仅3.8%,而HORIZON通过迭代对抗商业EDA仿真直到检查器通过。
框架示例
用户输入是Markdown框架,而非代码。以下骨架说明四个组件:目标(实现同步FIFO,深度16,8位数据),领域知识指导(复位同步高有效,full和empty不能同时断言),评估器规范(编译、仿真、覆盖率提取),验收谓词(仿真零不匹配)。然后循环使用Git操作驱动仓库。
优势与局限
优势:一个协议覆盖生成、完成和修复;框架对底层生成器或骨干网络无关;原生Git使追踪和重放几乎免费;会话重用保持每次迭代的边际成本低。局限:奖励反馈界面允许过度求解或奖励黑客;这些基准是受控代理;反馈周转快,但面向PPA的循环可能耗时数天或数周;覆盖率是观测性的,非目标;综合质量结果未优化。研究团队建议未来基准使用两级协议:修复期间暴露诊断反馈,保留隐藏随机测试用于最终评分。
关键要点
HORIZON通过隔离Git工作树管理RTL设计作为仓库级代码演化。Markdown框架编译为项目包,包含评估器、验收谓词、Git策略和领域技能。在所有评估套件上达到100%通过率;唯一失败是基准缺陷。约91%的令牌是缓存输入,成本集中在少数困难的CVDP类别。研究团队未声称硬件设计已解决;奖励黑客和长周转奖励仍是开放问题。