2026-06-01 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

QASM-Eval：用于训练和评估LLMs处理OpenQASM-3硬件级量子编程的数据集

量子计算仍处于含噪声中等规模量子（NISQ）时代，性能受噪声严重制约，需要硬件级功能如中电路测量、经典反馈、精确时序控制和脉冲级波形访问。OpenQASM-3提供了这些接口，但缺乏针对其硬件特性训练大语言模型（LLM）的数据集。为此，研究者推出QASM-Eval，首个全面覆盖OpenQASM-3硬件特性的数据集，包含100个专家验证的测试任务和4000个训练任务，涵盖经典逻辑、时序调度、脉冲控制和复杂工作流，并配有扩展验证器。评估显示，现有LLM在OpenQASM-3编码任务上表现困难，而针对QASM-Eval的微调可显著提升性能。该数据集为NISQ时代硬件级量子编程的可靠LLM助手开发提供了关键基准和训练基础。

来源arXiv Machine Learning作者: Zhenxiao Fu, Lei Jiang, Fan Chen

量子计算当前正处于含噪声中等规模量子（NISQ）时代，其性能受到噪声的严重制约。为了应对这一挑战，研究人员需要利用超越传统门序列电路的硬件级编程能力，例如中电路测量和用于量子纠错（QEC）的经典反馈、用于动态解耦（DD）的精确时间控制，以及用于校准的脉冲级波形访问。OpenQASM-3作为一种硬件级编程接口，正是为暴露这些能力而设计的。它允许程序员直接操作量子硬件的底层特性，从而更有效地优化量子程序的性能。然而，尽管大语言模型（LLM）在通用代码生成方面取得了快速进展，但截至目前，尚缺少专门用于训练和评估LLM编写涉及OpenQASM-3高级硬件特性程序的数据集。现有的资源大多集中在量子算法的高层设计或逻辑推理上，未能覆盖OpenQASM-3中那些与硬件紧密相关的编程模式。为了填补这一空白，研究团队引入了QASM-Eval，这是第一个全面用于OpenQASM-3的LLM训练和评估数据集。与专注于量子算法设计或推理的现有资源不同，QASM-Eval明确针对该语言的硬件面向特性。QASM-Eval包含一个由专家精心验证的100个任务的测试集和一个4000个任务的训练集，系统性地覆盖了经典逻辑、时序调度、脉冲控制以及复杂的现实工作流。这些任务涵盖了从简单的经典门操作到包含多轮测量和反馈的复杂流程。为了自动验证生成的程序是否符合预期，研究团队开发了一个扩展验证器，它不仅检查语法正确性，还验证量子态和程序时间线是否满足规范。由于量子程序对时序和状态非常敏感，这种多维度的验证机制确保了评估的可靠性。研究团队使用多个最先进的LLM进行了基准测试，包括GPT-4、Claude和开源模型如CodeLlama。评估结果显示，这些模型在OpenQASM-3编码任务中面临巨大挑战：即使是最先进的模型，在未微调的情况下，正确率也普遍较低。然而，当针对QASM-Eval进行针对性微调后，所有模型的性能都得到了显著提升，其中一些模型的正确率提高了超过50个百分点。这一结果表明，专门的数据集对于培养LLM理解硬件级量子编程至关重要。QASM-Eval的开源发布为NISQ时代可靠LLM助手在硬件级量子编程中的发展提供了关键的基准和训练基础。研究人员和工程师可以利用这一数据集来开发和评估更强大的量子编程助手，从而加速容错量子计算技术的突破。相关数据和代码已在GitHub上公开，供社区使用和改进。