2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

StepPRM-RTL：逐步过程奖励引导的LLM微调增强RTL综合

StepPRM-RTL是一个结合逐步轨迹建模、过程奖励模型（PRM）和检索增强微调（RAFT）的框架，用于提升LLM生成RTL代码的功能正确性和推理保真度。在基准测试中，功能正确性和推理保真度指标相比最佳先前方法提升超过10%。

来源arXiv AI作者: Prashanth Vijayaraghavan, Apoorva Nitsure, Luyao Shi, Ehsan Degan, Vandana Mukherjee

近年来，大型语言模型（LLM）在代码生成领域取得了显著进展，但针对硬件设计中的寄存器传输级（RTL）代码生成仍面临诸多挑战。RTL代码通常需要长程推理、多步依赖以及严格的正确性约束，这在Verilog和VHDL等硬件描述语言中尤为突出。为了解决这一问题，研究人员提出了StepPRM-RTL框架，该框架通过逐步过程奖励引导LLM微调，显著提升了RTL综合的质量。

StepPRM-RTL的核心思想是将RTL代码生成过程分解为多个推理步骤，每个步骤包含一个理由（rationale）和相应的增量代码修改。这种逐步轨迹建模方式使得模型能够更清晰地理解构建正确RTL的逻辑链条。此外，框架引入了一个过程奖励模型（Process Reward Model, PRM），用于评估中间步骤的正确性，并提供密集的反馈信号。这些反馈在检索增强微调（Retrieval-Augmented Fine-Tuning, RAFT）过程中指导模型进行强化式更新，从而优化其长程推理能力。

为了进一步丰富训练数据，StepPRM-RTL采用了蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）技术，探索多种可能的推理路径。MCTS生成的高质量轨迹被纳入训练集，帮助模型学习如何处理不同场景下的RTL设计。这种逐步奖励与结果感知奖励的整合，使模型不仅知道“如何”构建正确的RTL，还理解“为什么”要这么做，从而超越了传统的监督学习或基于结果训练的方法。

实验环节中，研究团队在多个基准Verilog和VHDL数据集上对StepPRM-RTL进行了评估。结果显示，该框架在功能正确性和推理保真度两方面均优于现有最佳方法，提升幅度超过10%。消融研究进一步确认，PRM引导的奖励与逐步轨迹探索的组合是性能提升的关键因素。此外，StepPRM-RTL在多种RTL语言上均表现出良好的泛化能力，为高保真、可解释的代码生成提供了可扩展的框架，树立了LLM辅助硬件设计自动化的新标准。

这项研究由Prashanth Vijayaraghavan等作者完成，相关论文已被DAC'2026接收。论文详细阐述了StepPRM-RTL的设计原理、实现细节及实验结果，感兴趣的读者可访问arXiv获取完整内容。