NVIDIA HORIZON:一種免手動代理框架,利用Git工作樹實現RTL基準測試100%完成率
NVIDIA Research推出HORIZON,一種免手動代理框架,將硬件設計視為基於Git工作樹的倉庫級代碼演化。該框架在所有評估的RTL基準測試中達到100%通過率,但團隊指出代理式硬件設計尚未完全解決。
NVIDIA Research發佈了HORIZON,一種用於硬件設計的免手動代理框架。該框架將硬件設計視為倉庫級代碼演化,每個寄存器傳輸級(RTL)問題被託管為一個版本化倉庫。研究團隊通過結構化的Markdown框架生成項目包,隨後一個自包含的代理循環在隔離的Git工作樹上進行演化。只有在可執行的驗收門通過時,才會提交一個新版本。
研究團隊報告稱,在所有評估的RTL基準測試套件上,完成率達到100%。但他們也明確指出,代理式硬件設計尚未完全解決。
什麼是HORIZON?
單輪代碼生成在執行設計任務時存在明顯限制。僅生成看似合理的Verilog不足以構建真實硬件,正確性取決於週期級行為、復位約定、位寬和仿真器反饋。HORIZON將每個設計問題託管為版本控制倉庫,而非一次性提示。唯一需要的輸入是一個結構化Markdown框架,包含四個組件:目標、領域知識指導、評估器規範和驗收謂詞。
引導代理將框架編譯為項目包,用數學符號表示為p = (πagent, Ep, Ap, Γp, Ωp),涵蓋代理策略、可執行評估器、驗收謂詞、版本控制策略和領域技能。對於RTL,評估器Ep可能包括編譯、仿真、覆蓋率提取以及斷言或測試台檢查。在其他領域,同一插槽可容納單元測試、定理證明器、性能分析工具或綜合工具。因此,問題是在Git工作樹上定義的,而非固定倉庫類型。
倉庫級循環如何工作
引導後,循環無需進一步人工干預即可運行。每個週期規劃目標、編輯工作樹、調用工具並運行評估器。然後驗收謂詞決定是提交新版本還是記錄失敗。Git作為基礎,差異顯示提議的狀態更改,提交定義接受的檢查點,筆記附加評估器證據,日誌恢復完整軌跡。
循環依賴原生Git命令以保持低成本。暫存編輯通過git diff --cached檢查。每次接受的嘗試成為一次Git提交,其筆記包含判定結果和獎勵。成功的提交成為正面修復示例,被拒絕的嘗試記錄為負面示例。倉庫歷史即經驗緩衝區,無需單獨的數據存儲。
研究團隊借用了半馬爾可夫決策過程的詞彙來描述記錄對象。一個“狀態”是倉庫的版本化快照,一個“選項”是兩個檢查點之間的一次情節。HORIZON在此工作中不訓練或更新策略,代理骨架在整個過程中保持固定。
會話重用降低了成本。HORIZON在整個迭代過程中保持持久模型會話。框架、項目包和穩定源從提供商的提示緩存中提供。新計費的令牌主要由當前差異和最新評估器輸出構成。
HORIZON在自演化系統中的位置
HORIZON擴展了倉庫級自演化系統的譜系。早期系統演化工程師運行的軟件,而HORIZON演化工程師創建的硬件工件。四個共享原則:僅當有可執行證據支持時,才接受候選更改。
基準測試結果
所有實驗使用固定的GPT-5.3骨幹網絡。每個結果使用單代理免手動模式。實驗在AMD EPYC 9334 32核主機上運行,內存512 GB。評估涵蓋ChipBench、RTLLM-2.0和Verilog-Eval,並新增九個CVDP代碼和驗證生成類別(CID 002至016)。CVDP包含783個人工編寫的問題。
一次迭代是一個自動化的外部步驟:代理編輯工作樹、運行評估器,然後提交通過或記錄拒絕。HORIZON在每個套件上達到100%通過率。唯一殘留的錯誤是ChipBench規範框架缺陷,非代理失敗。
首次迭代通過率為47.8%。迭代0不是獨立的Pass@1測量,而是首次代理迭代後的倉庫狀態。代理可能將調試和修復推遲到後續迭代。
收斂難度在各類別間差異很大。RTLLM-2.0和Verilog-Eval在兩次迭代內達到100%。檢查器生成(CID 013)起始僅3.8%,但穩步攀升至100%。代碼完成(CID 002)需要82次迭代,其長尾是最高的令牌成本。
令牌消耗
一旦正確性飽和,令牌消耗成為更有信息的信號。三個傳統套件共使用600萬令牌,九個CVDP類別使用2.039億令牌(佔97.1%)。CID 002單獨使用5600萬令牌。約91%的令牌是緩存輸入,顯著降低了API成本。因此,研究團隊將令牌效率視為最需要改進的指標。
使用示例
評估的類別直接映射到日常RTL工作:RTL代碼完成、自然語言規範到RTL、修改和模塊重用、linting和QoR改進、驗證生成、調試。檢查器生成是一個具體例子:單次模型難以處理,起始僅3.8%,而HORIZON通過迭代對抗商業EDA仿真直到檢查器通過。
框架示例
用户輸入是Markdown框架,而非代碼。以下骨架説明四個組件:目標(實現同步FIFO,深度16,8位數據),領域知識指導(復位同步高有效,full和empty不能同時斷言),評估器規範(編譯、仿真、覆蓋率提取),驗收謂詞(仿真零不匹配)。然後循環使用Git操作驅動倉庫。
優勢與侷限
優勢:一個協議覆蓋生成、完成和修復;框架對底層生成器或骨幹網絡無關;原生Git使追蹤和重放幾乎免費;會話重用保持每次迭代的邊際成本低。侷限:獎勵反饋界面允許過度求解或獎勵黑客;這些基準是受控代理;反饋週轉快,但面向PPA的循環可能耗時數天或數週;覆蓋率是觀測性的,非目標;綜合質量結果未優化。研究團隊建議未來基準使用兩級協議:修復期間暴露診斷反饋,保留隱藏隨機測試用於最終評分。
關鍵要點
HORIZON通過隔離Git工作樹管理RTL設計作為倉庫級代碼演化。Markdown框架編譯為項目包,包含評估器、驗收謂詞、Git策略和領域技能。在所有評估套件上達到100%通過率;唯一失敗是基準缺陷。約91%的令牌是緩存輸入,成本集中在少數困難的CVDP類別。研究團隊未聲稱硬件設計已解決;獎勵黑客和長週轉獎勵仍是開放問題。