2026-06-19站内改写1 分钟阅读更新: 2026-06-19

大型语言模型在硬件设计RTL编码中如何失败与泛化？

一项新研究针对LLM在硬件设计中的错误提出分类法，揭示在VerilogEval基准上准确率上限为90.8%，由不可解功能错误导致。对齐技术仅教会模型编译，而非推理。

来源arXiv Computational Linguistics作者: Guan-Ting Liu, Chao-Han Huck Yang, Chenhui Deng, Zhongzhi Yu, Brucek Khailany, Yu-Chiang Frank Wang

近期一项提交至EMNLP 2026的研究《How LLMs Fail and Generalize in RTL Coding for Hardware Design?》深入分析了大型语言模型（LLM）在硬件设计中的寄存器传输级（RTL）编码表现。该研究由Guan-Ting Liu等人完成，指出将顺序编程范式转化为并行时间逻辑的硬件描述语言仍是LLM的关键瓶颈。研究者提出了一种基于问题可解性的新错误分类法，受认知理论启发，将失败类型分为语法错误、语义错误、可解功能错误和不可解功能错误。评估显示，在VerilogEval基准测试中，最先进的模型初始通过率最高仅达90.8%，形成严格的经验上限。这一上限由不可解功能错误定义，揭示出测试时计算扩展无法弥补的持久知识缺口。更引人注目的是，研究发现了一种表面收敛差距：优化容易消除语法错误，但同时加剧了深层功能失败。这意味着对齐技术（如RLHF）本质上只是教会模型如何编译，而非真正理解硬件设计的并行逻辑。尽管重复采样策略可以修补可解错误，但RTL编码能力严格受限于预训练知识。因此，要突破当前LLM硬件生成管线的瓶颈，需要更多关注模型推理能力的研究，而非对齐干预。该论文正在EMNLP 2026审稿中。研究者来自多个机构，包括学术界和工业界。他们使用了VerilogEval基准，该基准包含多种RTL编码任务。研究发现，即使是最强大的模型，如GPT-4和Claude，也无法超越这一上限。具体来说，语法错误可以通过简单的优化解决，但功能错误，尤其是那些涉及复杂并行时序逻辑的错误，仍然存在。研究还表明，模型在训练过程中学到的知识不足以处理硬件设计的独特性，需要更深入的推理能力。这一发现对AI辅助硬件设计领域具有重要意义，提示开发者应关注模型的基础推理能力，而不是仅仅依赖对齐技术。论文的完整预印本可在arXiv上获取，标题为“How LLMs Fail and Generalize in RTL Coding for Hardware Design?”，作者包括Guan-Ting Liu等六人。该工作得到了多家机构的支持，包括台湾大学和微软研究院。