AI News HubLIVE
站內改寫3 分鐘閱讀

NVIDIA HORIZON:一種免手動代理框架,利用Git工作樹實現RTL基準測試100%完成率

NVIDIA Research推出HORIZON,一種免手動代理框架,將硬體設計視為基於Git工作樹的倉庫級程式碼演化。該框架在所有評估的RTL基準測試中達到100%透過率,但團隊指出代理式硬體設計尚未完全解決。

來源MarkTechPost作者: Asif Razzaq

NVIDIA Research釋出了HORIZON,一種用於硬體設計的免手動代理框架。該框架將硬體設計視為倉庫級程式碼演化,每個暫存器傳輸級(RTL)問題被託管為一個版本化倉庫。研究團隊透過結構化的Markdown框架生成專案包,隨後一個自包含的代理迴圈在隔離的Git工作樹上進行演化。只有在可執行的驗收門透過時,才會提交一個新版本。

研究團隊報告稱,在所有評估的RTL基準測試套件上,完成率達到100%。但他們也明確指出,代理式硬體設計尚未完全解決。

什麼是HORIZON?

單輪程式碼生成在執行設計任務時存在明顯限制。僅生成看似合理的Verilog不足以構建真實硬體,正確性取決於週期級行為、復位約定、位寬和模擬器反饋。HORIZON將每個設計問題託管為版本控制倉庫,而非一次性提示。唯一需要的輸入是一個結構化Markdown框架,包含四個元件:目標、領域知識指導、評估器規範和驗收謂詞。

引導代理將框架編譯為專案包,用數學符號表示為p = (πagent, Ep, Ap, Γp, Ωp),涵蓋代理策略、可執行評估器、驗收謂詞、版本控制策略和領域技能。對於RTL,評估器Ep可能包括編譯、模擬、覆蓋率提取以及斷言或測試臺檢查。在其他領域,同一插槽可容納單元測試、定理證明器、效能分析工具或綜合工具。因此,問題是在Git工作樹上定義的,而非固定倉庫型別。

倉庫級迴圈如何工作

引導後,迴圈無需進一步人工干預即可執行。每個週期規劃目標、編輯工作樹、呼叫工具並執行評估器。然後驗收謂詞決定是提交新版本還是記錄失敗。Git作為基礎,差異顯示提議的狀態更改,提交定義接受的檢查點,筆記附加評估器證據,日誌恢復完整軌跡。

迴圈依賴原生Git命令以保持低成本。暫存編輯透過git diff --cached檢查。每次接受的嘗試成為一次Git提交,其筆記包含判定結果和獎勵。成功的提交成為正面修復示例,被拒絕的嘗試記錄為負面示例。倉庫歷史即經驗緩衝區,無需單獨的資料儲存。

研究團隊借用了半馬爾可夫決策過程的詞彙來描述記錄物件。一個“狀態”是倉庫的版本化快照,一個“選項”是兩個檢查點之間的一次情節。HORIZON在此工作中不訓練或更新策略,代理骨架在整個過程中保持固定。

會話重用降低了成本。HORIZON在整個迭代過程中保持持久模型會話。框架、專案包和穩定源從提供商的提示快取中提供。新計費的令牌主要由當前差異和最新評估器輸出構成。

HORIZON在自演化系統中的位置

HORIZON擴充套件了倉庫級自演化系統的譜系。早期系統演化工程師執行的軟體,而HORIZON演化工程師建立的硬體工件。四個共享原則:僅當有可執行證據支援時,才接受候選更改。

基準測試結果

所有實驗使用固定的GPT-5.3骨幹網路。每個結果使用單代理免手動模式。實驗在AMD EPYC 9334 32核主機上執行,記憶體512 GB。評估涵蓋ChipBench、RTLLM-2.0和Verilog-Eval,並新增九個CVDP程式碼和驗證生成類別(CID 002至016)。CVDP包含783個人工編寫的問題。

一次迭代是一個自動化的外部步驟:代理編輯工作樹、執行評估器,然後提交透過或記錄拒絕。HORIZON在每個套件上達到100%透過率。唯一殘留的錯誤是ChipBench規範框架缺陷,非代理失敗。

首次迭代透過率為47.8%。迭代0不是獨立的Pass@1測量,而是首次代理迭代後的倉庫狀態。代理可能將除錯和修復推遲到後續迭代。

收斂難度在各類別間差異很大。RTLLM-2.0和Verilog-Eval在兩次迭代內達到100%。檢查器生成(CID 013)起始僅3.8%,但穩步攀升至100%。程式碼完成(CID 002)需要82次迭代,其長尾是最高的令牌成本。

令牌消耗

一旦正確性飽和,令牌消耗成為更有資訊的訊號。三個傳統套件共使用600萬令牌,九個CVDP類別使用2.039億令牌(佔97.1%)。CID 002單獨使用5600萬令牌。約91%的令牌是快取輸入,顯著降低了API成本。因此,研究團隊將令牌效率視為最需要改進的指標。

使用示例

評估的類別直接對映到日常RTL工作:RTL程式碼完成、自然語言規範到RTL、修改和模組重用、linting和QoR改進、驗證生成、除錯。檢查器生成是一個具體例子:單次模型難以處理,起始僅3.8%,而HORIZON透過迭代對抗商業EDA模擬直到檢查器透過。

框架示例

使用者輸入是Markdown框架,而非程式碼。以下骨架說明四個元件:目標(實現同步FIFO,深度16,8位資料),領域知識指導(復位同步高有效,full和empty不能同時斷言),評估器規範(編譯、模擬、覆蓋率提取),驗收謂詞(模擬零不匹配)。然後迴圈使用Git操作驅動倉庫。

優勢與侷限

優勢:一個協議覆蓋生成、完成和修復;框架對底層生成器或骨幹網路無關;原生Git使追蹤和重放幾乎免費;會話重用保持每次迭代的邊際成本低。侷限:獎勵反饋介面允許過度求解或獎勵駭客;這些基準是受控代理;反饋週轉快,但面向PPA的迴圈可能耗時數天或數週;覆蓋率是觀測性的,非目標;綜合質量結果未最佳化。研究團隊建議未來基準使用兩級協議:修復期間暴露診斷反饋,保留隱藏隨機測試用於最終評分。

關鍵要點

HORIZON透過隔離Git工作樹管理RTL設計作為倉庫級程式碼演化。Markdown框架編譯為專案包,包含評估器、驗收謂詞、Git策略和領域技能。在所有評估套件上達到100%透過率;唯一失敗是基準缺陷。約91%的令牌是快取輸入,成本集中在少數困難的CVDP類別。研究團隊未聲稱硬體設計已解決;獎勵駭客和長週轉獎勵仍是開放問題。