2026-06-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

QASM-Eval：用於訓練和評估LLMs處理OpenQASM-3硬體級量子程式設計的資料集

量子計算仍處於含噪聲中等規模量子（NISQ）時代，效能受噪聲嚴重製約，需要硬體級功能如中電路測量、經典反饋、精確時序控制和脈衝級波形訪問。OpenQASM-3提供了這些介面，但缺乏針對其硬體特性訓練大語言模型（LLM）的資料集。為此，研究者推出QASM-Eval，首個全面覆蓋OpenQASM-3硬體特性的資料集，包含100個專家驗證的測試任務和4000個訓練任務，涵蓋經典邏輯、時序排程、脈衝控制和複雜工作流，並配有擴充套件驗證器。評估顯示，現有LLM在OpenQASM-3編碼任務上表現困難，而針對QASM-Eval的微調可顯著提升效能。該資料集為NISQ時代硬體級量子程式設計的可靠LLM助手開發提供了關鍵基準和訓練基礎。

來源arXiv Machine Learning作者: Zhenxiao Fu, Lei Jiang, Fan Chen

量子計算當前正處於含噪聲中等規模量子（NISQ）時代，其效能受到噪聲的嚴重製約。為了應對這一挑戰，研究人員需要利用超越傳統門序列電路的硬體級程式設計能力，例如中電路測量和用於量子糾錯（QEC）的經典反饋、用於動態解耦（DD）的精確時間控制，以及用於校準的脈衝級波形訪問。OpenQASM-3作為一種硬體級程式設計介面，正是為暴露這些能力而設計的。它允許程式設計師直接操作量子硬體的底層特性，從而更有效地最佳化量子程式的效能。然而，儘管大語言模型（LLM）在通用程式碼生成方面取得了快速進展，但截至目前，尚缺少專門用於訓練和評估LLM編寫涉及OpenQASM-3高階硬體特性程式的資料集。現有的資源大多集中在量子演算法的高層設計或邏輯推理上，未能覆蓋OpenQASM-3中那些與硬體緊密相關的程式設計模式。為了填補這一空白，研究團隊引入了QASM-Eval，這是第一個全面用於OpenQASM-3的LLM訓練和評估資料集。與專注於量子演算法設計或推理的現有資源不同，QASM-Eval明確針對該語言的硬體面向特性。QASM-Eval包含一個由專家精心驗證的100個任務的測試集和一個4000個任務的訓練集，系統性地覆蓋了經典邏輯、時序排程、脈衝控制以及複雜的現實工作流。這些任務涵蓋了從簡單的經典門操作到包含多輪測量和反饋的複雜流程。為了自動驗證生成的程式是否符合預期，研究團隊開發了一個擴充套件驗證器，它不僅檢查語法正確性，還驗證量子態和程式時間線是否滿足規範。由於量子程式對時序和狀態非常敏感，這種多維度的驗證機制確保了評估的可靠性。研究團隊使用多個最先進的LLM進行了基準測試，包括GPT-4、Claude和開源模型如CodeLlama。評估結果顯示，這些模型在OpenQASM-3編碼任務中面臨巨大挑戰：即使是最先進的模型，在未微調的情況下，正確率也普遍較低。然而，當針對QASM-Eval進行針對性微調後，所有模型的效能都得到了顯著提升，其中一些模型的正確率提高了超過50個百分點。這一結果表明，專門的資料集對於培養LLM理解硬體級量子程式設計至關重要。QASM-Eval的開源釋出為NISQ時代可靠LLM助手在硬體級量子程式設計中的發展提供了關鍵的基準和訓練基礎。研究人員和工程師可以利用這一資料集來開發和評估更強大的量子程式設計助手，從而加速容錯量子計算技術的突破。相關資料和程式碼已在GitHub上公開，供社群使用和改進。