2026-07-05 00:04 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-05 00:11 UTC+8

NVIDIA HORIZON：一種免手動代理框架，利用Git工作樹實現RTL基準測試100%完成率

NVIDIA Research推出HORIZON，一種免手動代理框架，將硬體設計視為基於Git工作樹的倉庫級程式碼演化。該框架在所有評估的RTL基準測試中達到100%透過率，但團隊指出代理式硬體設計尚未完全解決。

來源MarkTechPost作者: Asif Razzaq

NVIDIA Research釋出了HORIZON，一種用於硬體設計的免手動代理框架。該框架將硬體設計視為倉庫級程式碼演化，每個暫存器傳輸級（RTL）問題被託管為一個版本化倉庫。研究團隊透過結構化的Markdown框架生成專案包，隨後一個自包含的代理迴圈在隔離的Git工作樹上進行演化。只有在可執行的驗收門透過時，才會提交一個新版本。

研究團隊報告稱，在所有評估的RTL基準測試套件上，完成率達到100%。但他們也明確指出，代理式硬體設計尚未完全解決。

什麼是HORIZON？

單輪程式碼生成在執行設計任務時存在明顯限制。僅生成看似合理的Verilog不足以構建真實硬體，正確性取決於週期級行為、復位約定、位寬和模擬器反饋。HORIZON將每個設計問題託管為版本控制倉庫，而非一次性提示。唯一需要的輸入是一個結構化Markdown框架，包含四個元件：目標、領域知識指導、評估器規範和驗收謂詞。

引導代理將框架編譯為專案包，用數學符號表示為p = (πagent, Ep, Ap, Γp, Ωp)，涵蓋代理策略、可執行評估器、驗收謂詞、版本控制策略和領域技能。對於RTL，評估器Ep可能包括編譯、模擬、覆蓋率提取以及斷言或測試臺檢查。在其他領域，同一插槽可容納單元測試、定理證明器、效能分析工具或綜合工具。因此，問題是在Git工作樹上定義的，而非固定倉庫型別。

倉庫級迴圈如何工作

引導後，迴圈無需進一步人工干預即可執行。每個週期規劃目標、編輯工作樹、呼叫工具並執行評估器。然後驗收謂詞決定是提交新版本還是記錄失敗。Git作為基礎，差異顯示提議的狀態更改，提交定義接受的檢查點，筆記附加評估器證據，日誌恢復完整軌跡。

迴圈依賴原生Git命令以保持低成本。暫存編輯透過git diff --cached檢查。每次接受的嘗試成為一次Git提交，其筆記包含判定結果和獎勵。成功的提交成為正面修復示例，被拒絕的嘗試記錄為負面示例。倉庫歷史即經驗緩衝區，無需單獨的資料儲存。

研究團隊借用了半馬爾可夫決策過程的詞彙來描述記錄物件。一個“狀態”是倉庫的版本化快照，一個“選項”是兩個檢查點之間的一次情節。HORIZON在此工作中不訓練或更新策略，代理骨架在整個過程中保持固定。

會話重用降低了成本。HORIZON在整個迭代過程中保持持久模型會話。框架、專案包和穩定源從提供商的提示快取中提供。新計費的令牌主要由當前差異和最新評估器輸出構成。

HORIZON在自演化系統中的位置

HORIZON擴充套件了倉庫級自演化系統的譜系。早期系統演化工程師執行的軟體，而HORIZON演化工程師建立的硬體工件。四個共享原則：僅當有可執行證據支援時，才接受候選更改。

基準測試結果

所有實驗使用固定的GPT-5.3骨幹網路。每個結果使用單代理免手動模式。實驗在AMD EPYC 9334 32核主機上執行，記憶體512 GB。評估涵蓋ChipBench、RTLLM-2.0和Verilog-Eval，並新增九個CVDP程式碼和驗證生成類別（CID 002至016）。CVDP包含783個人工編寫的問題。

一次迭代是一個自動化的外部步驟：代理編輯工作樹、執行評估器，然後提交透過或記錄拒絕。HORIZON在每個套件上達到100%透過率。唯一殘留的錯誤是ChipBench規範框架缺陷，非代理失敗。

首次迭代透過率為47.8%。迭代0不是獨立的Pass@1測量，而是首次代理迭代後的倉庫狀態。代理可能將除錯和修復推遲到後續迭代。

收斂難度在各類別間差異很大。RTLLM-2.0和Verilog-Eval在兩次迭代內達到100%。檢查器生成（CID 013）起始僅3.8%，但穩步攀升至100%。程式碼完成（CID 002）需要82次迭代，其長尾是最高的令牌成本。

令牌消耗

一旦正確性飽和，令牌消耗成為更有資訊的訊號。三個傳統套件共使用600萬令牌，九個CVDP類別使用2.039億令牌（佔97.1%）。CID 002單獨使用5600萬令牌。約91%的令牌是快取輸入，顯著降低了API成本。因此，研究團隊將令牌效率視為最需要改進的指標。

使用示例

評估的類別直接對映到日常RTL工作：RTL程式碼完成、自然語言規範到RTL、修改和模組重用、linting和QoR改進、驗證生成、除錯。檢查器生成是一個具體例子：單次模型難以處理，起始僅3.8%，而HORIZON透過迭代對抗商業EDA模擬直到檢查器透過。

框架示例

使用者輸入是Markdown框架，而非程式碼。以下骨架說明四個元件：目標（實現同步FIFO，深度16，8位資料），領域知識指導（復位同步高有效，full和empty不能同時斷言），評估器規範（編譯、模擬、覆蓋率提取），驗收謂詞（模擬零不匹配）。然後迴圈使用Git操作驅動倉庫。

優勢與侷限

優勢：一個協議覆蓋生成、完成和修復；框架對底層生成器或骨幹網路無關；原生Git使追蹤和重放幾乎免費；會話重用保持每次迭代的邊際成本低。侷限：獎勵反饋介面允許過度求解或獎勵駭客；這些基準是受控代理；反饋週轉快，但面向PPA的迴圈可能耗時數天或數週；覆蓋率是觀測性的，非目標；綜合質量結果未最佳化。研究團隊建議未來基準使用兩級協議：修復期間暴露診斷反饋，保留隱藏隨機測試用於最終評分。

關鍵要點

HORIZON透過隔離Git工作樹管理RTL設計作為倉庫級程式碼演化。Markdown框架編譯為專案包，包含評估器、驗收謂詞、Git策略和領域技能。在所有評估套件上達到100%透過率；唯一失敗是基準缺陷。約91%的令牌是快取輸入，成本集中在少數困難的CVDP類別。研究團隊未聲稱硬體設計已解決；獎勵駭客和長週轉獎勵仍是開放問題。