2026-07-05 00:04 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-05 00:11 UTC+8

NVIDIA HORIZON：一種免手動代理框架，利用Git工作樹實現RTL基準測試100%完成率

NVIDIA Research推出HORIZON，一種免手動代理框架，將硬件設計視為基於Git工作樹的倉庫級代碼演化。該框架在所有評估的RTL基準測試中達到100%通過率，但團隊指出代理式硬件設計尚未完全解決。

來源MarkTechPost作者: Asif Razzaq

NVIDIA Research發佈了HORIZON，一種用於硬件設計的免手動代理框架。該框架將硬件設計視為倉庫級代碼演化，每個寄存器傳輸級（RTL）問題被託管為一個版本化倉庫。研究團隊通過結構化的Markdown框架生成項目包，隨後一個自包含的代理循環在隔離的Git工作樹上進行演化。只有在可執行的驗收門通過時，才會提交一個新版本。

研究團隊報告稱，在所有評估的RTL基準測試套件上，完成率達到100%。但他們也明確指出，代理式硬件設計尚未完全解決。

什麼是HORIZON？

單輪代碼生成在執行設計任務時存在明顯限制。僅生成看似合理的Verilog不足以構建真實硬件，正確性取決於週期級行為、復位約定、位寬和仿真器反饋。HORIZON將每個設計問題託管為版本控制倉庫，而非一次性提示。唯一需要的輸入是一個結構化Markdown框架，包含四個組件：目標、領域知識指導、評估器規範和驗收謂詞。

引導代理將框架編譯為項目包，用數學符號表示為p = (πagent, Ep, Ap, Γp, Ωp)，涵蓋代理策略、可執行評估器、驗收謂詞、版本控制策略和領域技能。對於RTL，評估器Ep可能包括編譯、仿真、覆蓋率提取以及斷言或測試台檢查。在其他領域，同一插槽可容納單元測試、定理證明器、性能分析工具或綜合工具。因此，問題是在Git工作樹上定義的，而非固定倉庫類型。

倉庫級循環如何工作

引導後，循環無需進一步人工干預即可運行。每個週期規劃目標、編輯工作樹、調用工具並運行評估器。然後驗收謂詞決定是提交新版本還是記錄失敗。Git作為基礎，差異顯示提議的狀態更改，提交定義接受的檢查點，筆記附加評估器證據，日誌恢復完整軌跡。

循環依賴原生Git命令以保持低成本。暫存編輯通過git diff --cached檢查。每次接受的嘗試成為一次Git提交，其筆記包含判定結果和獎勵。成功的提交成為正面修復示例，被拒絕的嘗試記錄為負面示例。倉庫歷史即經驗緩衝區，無需單獨的數據存儲。

研究團隊借用了半馬爾可夫決策過程的詞彙來描述記錄對象。一個“狀態”是倉庫的版本化快照，一個“選項”是兩個檢查點之間的一次情節。HORIZON在此工作中不訓練或更新策略，代理骨架在整個過程中保持固定。

會話重用降低了成本。HORIZON在整個迭代過程中保持持久模型會話。框架、項目包和穩定源從提供商的提示緩存中提供。新計費的令牌主要由當前差異和最新評估器輸出構成。

HORIZON在自演化系統中的位置

HORIZON擴展了倉庫級自演化系統的譜系。早期系統演化工程師運行的軟件，而HORIZON演化工程師創建的硬件工件。四個共享原則：僅當有可執行證據支持時，才接受候選更改。

基準測試結果

所有實驗使用固定的GPT-5.3骨幹網絡。每個結果使用單代理免手動模式。實驗在AMD EPYC 9334 32核主機上運行，內存512 GB。評估涵蓋ChipBench、RTLLM-2.0和Verilog-Eval，並新增九個CVDP代碼和驗證生成類別（CID 002至016）。CVDP包含783個人工編寫的問題。

一次迭代是一個自動化的外部步驟：代理編輯工作樹、運行評估器，然後提交通過或記錄拒絕。HORIZON在每個套件上達到100%通過率。唯一殘留的錯誤是ChipBench規範框架缺陷，非代理失敗。

首次迭代通過率為47.8%。迭代0不是獨立的Pass@1測量，而是首次代理迭代後的倉庫狀態。代理可能將調試和修復推遲到後續迭代。

收斂難度在各類別間差異很大。RTLLM-2.0和Verilog-Eval在兩次迭代內達到100%。檢查器生成（CID 013）起始僅3.8%，但穩步攀升至100%。代碼完成（CID 002）需要82次迭代，其長尾是最高的令牌成本。

令牌消耗

一旦正確性飽和，令牌消耗成為更有信息的信號。三個傳統套件共使用600萬令牌，九個CVDP類別使用2.039億令牌（佔97.1%）。CID 002單獨使用5600萬令牌。約91%的令牌是緩存輸入，顯著降低了API成本。因此，研究團隊將令牌效率視為最需要改進的指標。

使用示例

評估的類別直接映射到日常RTL工作：RTL代碼完成、自然語言規範到RTL、修改和模塊重用、linting和QoR改進、驗證生成、調試。檢查器生成是一個具體例子：單次模型難以處理，起始僅3.8%，而HORIZON通過迭代對抗商業EDA仿真直到檢查器通過。

框架示例

用户輸入是Markdown框架，而非代碼。以下骨架説明四個組件：目標（實現同步FIFO，深度16，8位數據），領域知識指導（復位同步高有效，full和empty不能同時斷言），評估器規範（編譯、仿真、覆蓋率提取），驗收謂詞（仿真零不匹配）。然後循環使用Git操作驅動倉庫。

優勢與侷限

優勢：一個協議覆蓋生成、完成和修復；框架對底層生成器或骨幹網絡無關；原生Git使追蹤和重放幾乎免費；會話重用保持每次迭代的邊際成本低。侷限：獎勵反饋界面允許過度求解或獎勵黑客；這些基準是受控代理；反饋週轉快，但面向PPA的循環可能耗時數天或數週；覆蓋率是觀測性的，非目標；綜合質量結果未優化。研究團隊建議未來基準使用兩級協議：修復期間暴露診斷反饋，保留隱藏隨機測試用於最終評分。

關鍵要點

HORIZON通過隔離Git工作樹管理RTL設計作為倉庫級代碼演化。Markdown框架編譯為項目包，包含評估器、驗收謂詞、Git策略和領域技能。在所有評估套件上達到100%通過率；唯一失敗是基準缺陷。約91%的令牌是緩存輸入，成本集中在少數困難的CVDP類別。研究團隊未聲稱硬件設計已解決；獎勵黑客和長週轉獎勵仍是開放問題。