AI News HubLIVE
站内改写1 分钟阅读

StepPRM-RTL:逐步过程奖励引导的LLM微调增强RTL综合

StepPRM-RTL是一个结合逐步轨迹建模、过程奖励模型(PRM)和检索增强微调(RAFT)的框架,用于提升LLM生成RTL代码的功能正确性和推理保真度。在基准测试中,功能正确性和推理保真度指标相比最佳先前方法提升超过10%。

来源arXiv AI作者: Prashanth Vijayaraghavan, Apoorva Nitsure, Luyao Shi, Ehsan Degan, Vandana Mukherjee

近年来,大型语言模型(LLM)在代码生成领域取得了显著进展,但针对硬件设计中的寄存器传输级(RTL)代码生成仍面临诸多挑战。RTL代码通常需要长程推理、多步依赖以及严格的正确性约束,这在Verilog和VHDL等硬件描述语言中尤为突出。为了解决这一问题,研究人员提出了StepPRM-RTL框架,该框架通过逐步过程奖励引导LLM微调,显著提升了RTL综合的质量。

StepPRM-RTL的核心思想是将RTL代码生成过程分解为多个推理步骤,每个步骤包含一个理由(rationale)和相应的增量代码修改。这种逐步轨迹建模方式使得模型能够更清晰地理解构建正确RTL的逻辑链条。此外,框架引入了一个过程奖励模型(Process Reward Model, PRM),用于评估中间步骤的正确性,并提供密集的反馈信号。这些反馈在检索增强微调(Retrieval-Augmented Fine-Tuning, RAFT)过程中指导模型进行强化式更新,从而优化其长程推理能力。

为了进一步丰富训练数据,StepPRM-RTL采用了蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)技术,探索多种可能的推理路径。MCTS生成的高质量轨迹被纳入训练集,帮助模型学习如何处理不同场景下的RTL设计。这种逐步奖励与结果感知奖励的整合,使模型不仅知道“如何”构建正确的RTL,还理解“为什么”要这么做,从而超越了传统的监督学习或基于结果训练的方法。

实验环节中,研究团队在多个基准Verilog和VHDL数据集上对StepPRM-RTL进行了评估。结果显示,该框架在功能正确性和推理保真度两方面均优于现有最佳方法,提升幅度超过10%。消融研究进一步确认,PRM引导的奖励与逐步轨迹探索的组合是性能提升的关键因素。此外,StepPRM-RTL在多种RTL语言上均表现出良好的泛化能力,为高保真、可解释的代码生成提供了可扩展的框架,树立了LLM辅助硬件设计自动化的新标准。

这项研究由Prashanth Vijayaraghavan等作者完成,相关论文已被DAC'2026接收。论文详细阐述了StepPRM-RTL的设计原理、实现细节及实验结果,感兴趣的读者可访问arXiv获取完整内容。