AI News HubLIVE
站内改写2 分鐘閱讀

StepPRM-RTL:逐步過程獎勵引導的LLM微調增強RTL綜合

StepPRM-RTL是一個結合逐步軌跡建模、過程獎勵模型(PRM)和檢索增強微調(RAFT)的框架,用於提升LLM生成RTL程式碼的功能正確性和推理保真度。在基準測試中,功能正確性和推理保真度指標相比最佳先前方法提升超過10%。

來源arXiv AI作者: Prashanth Vijayaraghavan, Apoorva Nitsure, Luyao Shi, Ehsan Degan, Vandana Mukherjee

近年來,大型語言模型(LLM)在程式碼生成領域取得了顯著進展,但針對硬體設計中的暫存器傳輸級(RTL)程式碼生成仍面臨諸多挑戰。RTL程式碼通常需要長程推理、多步依賴以及嚴格的正確性約束,這在Verilog和VHDL等硬體描述語言中尤為突出。為了解決這一問題,研究人員提出了StepPRM-RTL框架,該框架透過逐步過程獎勵引導LLM微調,顯著提升了RTL綜合的質量。

StepPRM-RTL的核心思想是將RTL程式碼生成過程分解為多個推理步驟,每個步驟包含一個理由(rationale)和相應的增量程式碼修改。這種逐步軌跡建模方式使得模型能夠更清晰地理解構建正確RTL的邏輯鏈條。此外,框架引入了一個過程獎勵模型(Process Reward Model, PRM),用於評估中間步驟的正確性,並提供密集的反饋訊號。這些反饋在檢索增強微調(Retrieval-Augmented Fine-Tuning, RAFT)過程中指導模型進行強化式更新,從而最佳化其長程推理能力。

為了進一步豐富訓練資料,StepPRM-RTL採用了蒙特卡洛樹搜尋(Monte Carlo Tree Search, MCTS)技術,探索多種可能的推理路徑。MCTS生成的高質量軌跡被納入訓練集,幫助模型學習如何處理不同場景下的RTL設計。這種逐步獎勵與結果感知獎勵的整合,使模型不僅知道“如何”構建正確的RTL,還理解“為什麼”要這麼做,從而超越了傳統的監督學習或基於結果訓練的方法。

實驗環節中,研究團隊在多個基準Verilog和VHDL資料集上對StepPRM-RTL進行了評估。結果顯示,該框架在功能正確性和推理保真度兩方面均優於現有最佳方法,提升幅度超過10%。消融研究進一步確認,PRM引導的獎勵與逐步軌跡探索的組合是效能提升的關鍵因素。此外,StepPRM-RTL在多種RTL語言上均表現出良好的泛化能力,為高保真、可解釋的程式碼生成提供了可擴充套件的框架,樹立了LLM輔助硬體設計自動化的新標準。

這項研究由Prashanth Vijayaraghavan等作者完成,相關論文已被DAC'2026接收。論文詳細闡述了StepPRM-RTL的設計原理、實現細節及實驗結果,感興趣的讀者可訪問arXiv獲取完整內容。