大型語言模型在硬件設計RTL編碼中如何失敗與泛化?
一項新研究針對LLM在硬件設計中的錯誤提出分類法,揭示在VerilogEval基準上準確率上限為90.8%,由不可解功能錯誤導致。對齊技術僅教會模型編譯,而非推理。
近期一項提交至EMNLP 2026的研究《How LLMs Fail and Generalize in RTL Coding for Hardware Design?》深入分析了大型語言模型(LLM)在硬件設計中的寄存器傳輸級(RTL)編碼表現。該研究由Guan-Ting Liu等人完成,指出將順序編程範式轉化為並行時間邏輯的硬件描述語言仍是LLM的關鍵瓶頸。研究者提出了一種基於問題可解性的新錯誤分類法,受認知理論啓發,將失敗類型分為語法錯誤、語義錯誤、可解功能錯誤和不可解功能錯誤。評估顯示,在VerilogEval基準測試中,最先進的模型初始通過率最高僅達90.8%,形成嚴格的經驗上限。這一上限由不可解功能錯誤定義,揭示出測試時計算擴展無法彌補的持久知識缺口。更引人注目的是,研究發現了一種表面收斂差距:優化容易消除語法錯誤,但同時加劇了深層功能失敗。這意味着對齊技術(如RLHF)本質上只是教會模型如何編譯,而非真正理解硬件設計的並行邏輯。儘管重複採樣策略可以修補可解錯誤,但RTL編碼能力嚴格受限於預訓練知識。因此,要突破當前LLM硬件生成管線的瓶頸,需要更多關注模型推理能力的研究,而非對齊干預。該論文正在EMNLP 2026審稿中。研究者來自多個機構,包括學術界和工業界。他們使用了VerilogEval基準,該基準包含多種RTL編碼任務。研究發現,即使是最強大的模型,如GPT-4和Claude,也無法超越這一上限。具體來説,語法錯誤可以通過簡單的優化解決,但功能錯誤,尤其是那些涉及複雜並行時序邏輯的錯誤,仍然存在。研究還表明,模型在訓練過程中學到的知識不足以處理硬件設計的獨特性,需要更深入的推理能力。這一發現對AI輔助硬件設計領域具有重要意義,提示開發者應關注模型的基礎推理能力,而不是僅僅依賴對齊技術。論文的完整預印本可在arXiv上獲取,標題為“How LLMs Fail and Generalize in RTL Coding for Hardware Design?”,作者包括Guan-Ting Liu等六人。該工作得到了多家機構的支持,包括台灣大學和微軟研究院。