利用IBM量子採樣循環調優僅CPU的Qwen3-30B推理
一個研究項目展示了在2017年MacBook Air上,通過結合人類實驗者、Codex、llama.cpp、本地數據庫和IBM量子處理器採樣,將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec,同時保持輸出連貫性。該方法並非在量子處理器上運行模型,而是用量子採樣優化推理配置。
文章情報
要點
- 在8GB內存的2017年MacBook Air上,無GPU運行Qwen3-30B模型
- 通過人機協同量子優化循環,速度從0.09 tok/s提升到14.03 tok/s
- 嚴格質量門控確保輸出連貫性,避免單純追求速度
- IBM量子處理器用於候選配置採樣,本地llama.cpp進行測試
為甚麼重要
這條新聞值得關注,因為在8GB內存的2017年MacBook Air上,無GPU運行Qwen3-30B模型。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
一項突破性的研究展示瞭如何在一台2017年款的MacBook Air(僅8GB內存,無GPU)上,將Qwen3-30B這一大型混合專家模型(MoE)的推理速度提升超過150倍。該項目並非直接在量子計算機上運行模型,而是創造性地利用IBM量子處理器作為“候選配置採樣器”,與人類研究者、AI編碼助手Codex以及本地llama.cpp推理引擎協同工作,形成一個高效的自動研究閉環。
項目的核心是一個同步循環:人類實驗者設定目標和約束,Codex負責提出、修改、運行、記錄並解釋實驗;MacBook通過llama.cpp執行真實推理並評估候選方案;本地數據庫記錄運行狀態;緊湊的候選選擇被壓縮為QUBO(二次無約束二進制優化)形式,提交給IBM量子處理器採樣比特串;Codex將這些比特串解碼為具體的llama.cpp配置,再由MacBook測試。量子處理器優化了候選選擇環節,而MacBook始終是最終的評判者。
在性能提升方面,初始基線僅為約0.09個生成令牌/秒。經過經典系統優化後,達到6.49 tok/s。第一次引入IBM量子採樣後,速度躍升至13.12 tok/s。通過嚴格質量門控(確保輸出連貫性)的記錄為14.03 tok/s。此外,在“潔淨室”驗證中達到13.91 tok/s。值得注意是,存在一個速度更快但未獲認證的16.53 tok/s結果,因其輸出連貫性未通過質量檢測。
質量門控是該項目的重要特徵。一個速度結果只有在輸出保持連貫時才被視為有效。研究使用簡短的事實或代碼提示進行測試,例如“塞爾維亞的首都是什麼?”或“編寫一個緊湊的Python函數檢查素數”。已知單純追求速度的專家縮減可能產生高令牌率但文本破碎,因此接受的記錄低於最快的原始速率以確保連貫性。
該項目完全開源,提供了完整的基準測試工具、MCP風格服務器、實驗日誌、論文草稿以及交互式儀表盤。開發者可以按照指南自行復現結果,包括設置環境、驗證配置以及運行記錄級實驗。需要注意的是,模型權重和IBM量子憑證不在倉庫中,用户需自行獲取。量子處理器的使用通過顯式標誌保護,默認為本地模擬或空運行。
這一研究不僅展示了在老舊硬件上運行大型語言模型的潛力,更開闢了一種將量子計算與傳統機器學習優化相結合的實用範式。它證明了即使不直接用量子計算機執行推理,量子採樣也能在超參數搜索空間中提供獨特的優勢,為未來混合計算架構提供了重要參考。