StepPRM-RTL:段階的プロセス報酬に基づくLLM微調整によるRTL合成の強化
StepPRM-RTLは、段階的軌跡モデリング、プロセス報酬モデル(PRM)、および検索拡張微調整(RAFT)を組み合わせた新しいフレームワークであり、LLMベースのRTLコード生成の機能的正当性と推論忠実度を向上させる。ベンチマークでは、最良の先行手法と比較して10%以上の改善を示した。
近年、大規模言語モデル(LLM)はコード生成の分野で顕著な進歩を遂げているが、ハードウェア設計におけるレジスタ転送レベル(RTL)コードの生成には依然として課題が残る。RTLコードは、長期的な推論、多段階の依存関係、VerilogやVHDLなどのハードウェア記述言語における厳格な正当性制約を必要とする。この問題を解決するため、研究者らはStepPRM-RTLフレームワークを提案した。これは、段階的なプロセス報酬によるLLMの微調整を通じて、RTL合成の品質を大幅に向上させるものである。
StepPRM-RTLの核心は、RTLコード生成プロセスを複数の推論ステップに分解し、各ステップに理由(rationale)と対応するインクリメンタルなコード修正を含める点にある。この段階的軌跡モデリングにより、モデルは正しいRTLを構築するための論理チェーンをより明確に理解できるようになる。さらに、フレームワークはプロセス報酬モデル(PRM)を導入し、中間ステップの正しさを評価して密なフィードバックを提供する。このフィードバックは、検索拡張微調整(RAFT)プロセスにおいて、モデルを強化学習的に更新し、長期的な推論能力を最適化するために使用される。
トレーニングデータをさらに充実させるため、StepPRM-RTLはモンテカルロ木探索(MCTS)を採用し、複数の推論経路を探索する。MCTSによって生成された高品質な軌跡はトレーニングセットに組み込まれ、モデルが様々なRTL設計シナリオに対処する方法を学ぶのに役立つ。この段階的報酬と結果認識報酬の統合により、モデルは正しいRTLを「どのように」構築するかだけでなく、「なぜ」そうするのかも理解できるようになり、従来の教師あり学習や結果ベースのトレーニングを超越する。
実験では、研究チームは複数のベンチマークVerilogおよびVHDLデータセットでStepPRM-RTLを評価した。結果は、機能的正当性と推論忠実度の両方において、既存の最良手法を10%以上上回ることを示した。アブレーション研究により、PRM誘導報酬と段階的軌跡探索の組み合わせが性能向上の鍵であることが確認された。また、StepPRM-RTLは複数のRTL言語にわたって良好な汎化能力を示し、高忠実度で解釈可能なコード生成のためのスケーラブルなフレームワークを提供し、LLM支援ハードウェア設計自動化の新たな基準を確立した。
この研究はPrashanth Vijayaraghavanらによって行われ、関連論文はDAC'2026に採択されている。論文ではStepPRM-RTLの設計原理、実装詳細、実験結果が詳述されており、興味のある読者はarXivで全文を参照できる。