大型语言模型在硬件设计RTL编码中如何失败与泛化?
一项新研究针对LLM在硬件设计中的错误提出分类法,揭示在VerilogEval基准上准确率上限为90.8%,由不可解功能错误导致。对齐技术仅教会模型编译,而非推理。
近期一项提交至EMNLP 2026的研究《How LLMs Fail and Generalize in RTL Coding for Hardware Design?》深入分析了大型语言模型(LLM)在硬件设计中的寄存器传输级(RTL)编码表现。该研究由Guan-Ting Liu等人完成,指出将顺序编程范式转化为并行时间逻辑的硬件描述语言仍是LLM的关键瓶颈。研究者提出了一种基于问题可解性的新错误分类法,受认知理论启发,将失败类型分为语法错误、语义错误、可解功能错误和不可解功能错误。评估显示,在VerilogEval基准测试中,最先进的模型初始通过率最高仅达90.8%,形成严格的经验上限。这一上限由不可解功能错误定义,揭示出测试时计算扩展无法弥补的持久知识缺口。更引人注目的是,研究发现了一种表面收敛差距:优化容易消除语法错误,但同时加剧了深层功能失败。这意味着对齐技术(如RLHF)本质上只是教会模型如何编译,而非真正理解硬件设计的并行逻辑。尽管重复采样策略可以修补可解错误,但RTL编码能力严格受限于预训练知识。因此,要突破当前LLM硬件生成管线的瓶颈,需要更多关注模型推理能力的研究,而非对齐干预。该论文正在EMNLP 2026审稿中。研究者来自多个机构,包括学术界和工业界。他们使用了VerilogEval基准,该基准包含多种RTL编码任务。研究发现,即使是最强大的模型,如GPT-4和Claude,也无法超越这一上限。具体来说,语法错误可以通过简单的优化解决,但功能错误,尤其是那些涉及复杂并行时序逻辑的错误,仍然存在。研究还表明,模型在训练过程中学到的知识不足以处理硬件设计的独特性,需要更深入的推理能力。这一发现对AI辅助硬件设计领域具有重要意义,提示开发者应关注模型的基础推理能力,而不是仅仅依赖对齐技术。论文的完整预印本可在arXiv上获取,标题为“How LLMs Fail and Generalize in RTL Coding for Hardware Design?”,作者包括Guan-Ting Liu等六人。该工作得到了多家机构的支持,包括台湾大学和微软研究院。