QASM-Eval:用於訓練和評估LLMs處理OpenQASM-3硬件級量子編程的數據集
量子計算仍處於含噪聲中等規模量子(NISQ)時代,性能受噪聲嚴重製約,需要硬件級功能如中電路測量、經典反饋、精確時序控制和脈衝級波形訪問。OpenQASM-3提供了這些接口,但缺乏針對其硬件特性訓練大語言模型(LLM)的數據集。為此,研究者推出QASM-Eval,首個全面覆蓋OpenQASM-3硬件特性的數據集,包含100個專家驗證的測試任務和4000個訓練任務,涵蓋經典邏輯、時序調度、脈衝控制和複雜工作流,並配有擴展驗證器。評估顯示,現有LLM在OpenQASM-3編碼任務上表現困難,而針對QASM-Eval的微調可顯著提升性能。該數據集為NISQ時代硬件級量子編程的可靠LLM助手開發提供了關鍵基準和訓練基礎。
量子計算當前正處於含噪聲中等規模量子(NISQ)時代,其性能受到噪聲的嚴重製約。為了應對這一挑戰,研究人員需要利用超越傳統門序列電路的硬件級編程能力,例如中電路測量和用於量子糾錯(QEC)的經典反饋、用於動態解耦(DD)的精確時間控制,以及用於校準的脈衝級波形訪問。OpenQASM-3作為一種硬件級編程接口,正是為暴露這些能力而設計的。它允許程序員直接操作量子硬件的底層特性,從而更有效地優化量子程序的性能。然而,儘管大語言模型(LLM)在通用代碼生成方面取得了快速進展,但截至目前,尚缺少專門用於訓練和評估LLM編寫涉及OpenQASM-3高級硬件特性程序的數據集。現有的資源大多集中在量子算法的高層設計或邏輯推理上,未能覆蓋OpenQASM-3中那些與硬件緊密相關的編程模式。為了填補這一空白,研究團隊引入了QASM-Eval,這是第一個全面用於OpenQASM-3的LLM訓練和評估數據集。與專注於量子算法設計或推理的現有資源不同,QASM-Eval明確針對該語言的硬件面向特性。QASM-Eval包含一個由專家精心驗證的100個任務的測試集和一個4000個任務的訓練集,系統性地覆蓋了經典邏輯、時序調度、脈衝控制以及複雜的現實工作流。這些任務涵蓋了從簡單的經典門操作到包含多輪測量和反饋的複雜流程。為了自動驗證生成的程序是否符合預期,研究團隊開發了一個擴展驗證器,它不僅檢查語法正確性,還驗證量子態和程序時間線是否滿足規範。由於量子程序對時序和狀態非常敏感,這種多維度的驗證機制確保了評估的可靠性。研究團隊使用多個最先進的LLM進行了基準測試,包括GPT-4、Claude和開源模型如CodeLlama。評估結果顯示,這些模型在OpenQASM-3編碼任務中面臨巨大挑戰:即使是最先進的模型,在未微調的情況下,正確率也普遍較低。然而,當針對QASM-Eval進行針對性微調後,所有模型的性能都得到了顯著提升,其中一些模型的正確率提高了超過50個百分點。這一結果表明,專門的數據集對於培養LLM理解硬件級量子編程至關重要。QASM-Eval的開源發佈為NISQ時代可靠LLM助手在硬件級量子編程中的發展提供了關鍵的基準和訓練基礎。研究人員和工程師可以利用這一數據集來開發和評估更強大的量子編程助手,從而加速容錯量子計算技術的突破。相關數據和代碼已在GitHub上公開,供社區使用和改進。