利用IBM量子取樣迴圈調優僅CPU的Qwen3-30B推理
一個研究專案展示了在2017年MacBook Air上,透過結合人類實驗者、Codex、llama.cpp、本地資料庫和IBM量子處理器取樣,將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec,同時保持輸出連貫性。該方法並非在量子處理器上執行模型,而是用量子取樣最佳化推理配置。
文章情報
要點
- 在8GB記憶體的2017年MacBook Air上,無GPU執行Qwen3-30B模型
- 透過人機協同量子最佳化迴圈,速度從0.09 tok/s提升到14.03 tok/s
- 嚴格質量門控確保輸出連貫性,避免單純追求速度
- IBM量子處理器用於候選配置取樣,本地llama.cpp進行測試
為什麼重要
這條新聞值得關注,因為在8GB記憶體的2017年MacBook Air上,無GPU執行Qwen3-30B模型。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
一項突破性的研究展示瞭如何在一臺2017年款的MacBook Air(僅8GB記憶體,無GPU)上,將Qwen3-30B這一大型混合專家模型(MoE)的推理速度提升超過150倍。該專案並非直接在量子計算機上執行模型,而是創造性地利用IBM量子處理器作為“候選配置取樣器”,與人類研究者、AI編碼助手Codex以及本地llama.cpp推理引擎協同工作,形成一個高效的自動研究閉環。
專案的核心是一個同步迴圈:人類實驗者設定目標和約束,Codex負責提出、修改、執行、記錄並解釋實驗;MacBook透過llama.cpp執行真實推理並評估候選方案;本地資料庫記錄執行狀態;緊湊的候選選擇被壓縮為QUBO(二次無約束二進位制最佳化)形式,提交給IBM量子處理器取樣位元串;Codex將這些位元串解碼為具體的llama.cpp配置,再由MacBook測試。量子處理器最佳化了候選選擇環節,而MacBook始終是最終的評判者。
在效能提升方面,初始基線僅為約0.09個生成令牌/秒。經過經典系統最佳化後,達到6.49 tok/s。第一次引入IBM量子取樣後,速度躍升至13.12 tok/s。透過嚴格質量門控(確保輸出連貫性)的記錄為14.03 tok/s。此外,在“潔淨室”驗證中達到13.91 tok/s。值得注意是,存在一個速度更快但未獲認證的16.53 tok/s結果,因其輸出連貫性未透過質量檢測。
質量門控是該專案的重要特徵。一個速度結果只有在輸出保持連貫時才被視為有效。研究使用簡短的事實或程式碼提示進行測試,例如“塞爾維亞的首都是什麼?”或“編寫一個緊湊的Python函式檢查素數”。已知單純追求速度的專家縮減可能產生高令牌率但文本破碎,因此接受的記錄低於最快的原始速率以確保連貫性。
該專案完全開源,提供了完整的基準測試工具、MCP風格伺服器、實驗日誌、論文草稿以及互動式儀表盤。開發者可以按照指南自行復現結果,包括設定環境、驗證配置以及執行記錄級實驗。需要注意的是,模型權重和IBM量子憑證不在倉庫中,使用者需自行獲取。量子處理器的使用透過顯式標誌保護,預設為本地模擬或空執行。
這一研究不僅展示了在老舊硬體上執行大型語言模型的潛力,更開闢了一種將量子計算與傳統機器學習最佳化相結合的實用正規化。它證明了即使不直接用量子計算機執行推理,量子取樣也能在超引數搜尋空間中提供獨特的優勢,為未來混合計算架構提供了重要參考。