2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

大型語言模型在硬件設計RTL編碼中如何失敗與泛化？

一項新研究針對LLM在硬件設計中的錯誤提出分類法，揭示在VerilogEval基準上準確率上限為90.8%，由不可解功能錯誤導致。對齊技術僅教會模型編譯，而非推理。

來源arXiv Computational Linguistics作者: Guan-Ting Liu, Chao-Han Huck Yang, Chenhui Deng, Zhongzhi Yu, Brucek Khailany, Yu-Chiang Frank Wang

近期一項提交至EMNLP 2026的研究《How LLMs Fail and Generalize in RTL Coding for Hardware Design?》深入分析了大型語言模型（LLM）在硬件設計中的寄存器傳輸級（RTL）編碼表現。該研究由Guan-Ting Liu等人完成，指出將順序編程範式轉化為並行時間邏輯的硬件描述語言仍是LLM的關鍵瓶頸。研究者提出了一種基於問題可解性的新錯誤分類法，受認知理論啓發，將失敗類型分為語法錯誤、語義錯誤、可解功能錯誤和不可解功能錯誤。評估顯示，在VerilogEval基準測試中，最先進的模型初始通過率最高僅達90.8%，形成嚴格的經驗上限。這一上限由不可解功能錯誤定義，揭示出測試時計算擴展無法彌補的持久知識缺口。更引人注目的是，研究發現了一種表面收斂差距：優化容易消除語法錯誤，但同時加劇了深層功能失敗。這意味着對齊技術（如RLHF）本質上只是教會模型如何編譯，而非真正理解硬件設計的並行邏輯。儘管重複採樣策略可以修補可解錯誤，但RTL編碼能力嚴格受限於預訓練知識。因此，要突破當前LLM硬件生成管線的瓶頸，需要更多關注模型推理能力的研究，而非對齊干預。該論文正在EMNLP 2026審稿中。研究者來自多個機構，包括學術界和工業界。他們使用了VerilogEval基準，該基準包含多種RTL編碼任務。研究發現，即使是最強大的模型，如GPT-4和Claude，也無法超越這一上限。具體來説，語法錯誤可以通過簡單的優化解決，但功能錯誤，尤其是那些涉及複雜並行時序邏輯的錯誤，仍然存在。研究還表明，模型在訓練過程中學到的知識不足以處理硬件設計的獨特性，需要更深入的推理能力。這一發現對AI輔助硬件設計領域具有重要意義，提示開發者應關注模型的基礎推理能力，而不是僅僅依賴對齊技術。論文的完整預印本可在arXiv上獲取，標題為“How LLMs Fail and Generalize in RTL Coding for Hardware Design?”，作者包括Guan-Ting Liu等六人。該工作得到了多家機構的支持，包括台灣大學和微軟研究院。