2026-06-04 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

StepPRM-RTL：逐步過程獎勵引導的LLM微調增強RTL綜合

StepPRM-RTL是一個結合逐步軌跡建模、過程獎勵模型（PRM）和檢索增強微調（RAFT）的框架，用於提升LLM生成RTL程式碼的功能正確性和推理保真度。在基準測試中，功能正確性和推理保真度指標相比最佳先前方法提升超過10%。

來源arXiv AI作者: Prashanth Vijayaraghavan, Apoorva Nitsure, Luyao Shi, Ehsan Degan, Vandana Mukherjee

近年來，大型語言模型（LLM）在程式碼生成領域取得了顯著進展，但針對硬體設計中的暫存器傳輸級（RTL）程式碼生成仍面臨諸多挑戰。RTL程式碼通常需要長程推理、多步依賴以及嚴格的正確性約束，這在Verilog和VHDL等硬體描述語言中尤為突出。為了解決這一問題，研究人員提出了StepPRM-RTL框架，該框架透過逐步過程獎勵引導LLM微調，顯著提升了RTL綜合的質量。

StepPRM-RTL的核心思想是將RTL程式碼生成過程分解為多個推理步驟，每個步驟包含一個理由（rationale）和相應的增量程式碼修改。這種逐步軌跡建模方式使得模型能夠更清晰地理解構建正確RTL的邏輯鏈條。此外，框架引入了一個過程獎勵模型（Process Reward Model, PRM），用於評估中間步驟的正確性，並提供密集的反饋訊號。這些反饋在檢索增強微調（Retrieval-Augmented Fine-Tuning, RAFT）過程中指導模型進行強化式更新，從而最佳化其長程推理能力。

為了進一步豐富訓練資料，StepPRM-RTL採用了蒙特卡洛樹搜尋（Monte Carlo Tree Search, MCTS）技術，探索多種可能的推理路徑。MCTS生成的高質量軌跡被納入訓練集，幫助模型學習如何處理不同場景下的RTL設計。這種逐步獎勵與結果感知獎勵的整合，使模型不僅知道“如何”構建正確的RTL，還理解“為什麼”要這麼做，從而超越了傳統的監督學習或基於結果訓練的方法。

實驗環節中，研究團隊在多個基準Verilog和VHDL資料集上對StepPRM-RTL進行了評估。結果顯示，該框架在功能正確性和推理保真度兩方面均優於現有最佳方法，提升幅度超過10%。消融研究進一步確認，PRM引導的獎勵與逐步軌跡探索的組合是效能提升的關鍵因素。此外，StepPRM-RTL在多種RTL語言上均表現出良好的泛化能力，為高保真、可解釋的程式碼生成提供了可擴充套件的框架，樹立了LLM輔助硬體設計自動化的新標準。

這項研究由Prashanth Vijayaraghavan等作者完成，相關論文已被DAC'2026接收。論文詳細闡述了StepPRM-RTL的設計原理、實現細節及實驗結果，感興趣的讀者可訪問arXiv獲取完整內容。