2026-05-30 09:55 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

利用IBM量子採樣循環調優僅CPU的Qwen3-30B推理

一個研究項目展示了在2017年MacBook Air上，通過結合人類實驗者、Codex、llama.cpp、本地數據庫和IBM量子處理器採樣，將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec，同時保持輸出連貫性。該方法並非在量子處理器上運行模型，而是用量子採樣優化推理配置。

來源Hacker News AI作者: Royce-CMR

一項突破性的研究展示瞭如何在一台2017年款的MacBook Air（僅8GB內存，無GPU）上，將Qwen3-30B這一大型混合專家模型（MoE）的推理速度提升超過150倍。該項目並非直接在量子計算機上運行模型，而是創造性地利用IBM量子處理器作為“候選配置採樣器”，與人類研究者、AI編碼助手Codex以及本地llama.cpp推理引擎協同工作，形成一個高效的自動研究閉環。

項目的核心是一個同步循環：人類實驗者設定目標和約束，Codex負責提出、修改、運行、記錄並解釋實驗；MacBook通過llama.cpp執行真實推理並評估候選方案；本地數據庫記錄運行狀態；緊湊的候選選擇被壓縮為QUBO（二次無約束二進制優化）形式，提交給IBM量子處理器採樣比特串；Codex將這些比特串解碼為具體的llama.cpp配置，再由MacBook測試。量子處理器優化了候選選擇環節，而MacBook始終是最終的評判者。

在性能提升方面，初始基線僅為約0.09個生成令牌/秒。經過經典系統優化後，達到6.49 tok/s。第一次引入IBM量子採樣後，速度躍升至13.12 tok/s。通過嚴格質量門控（確保輸出連貫性）的記錄為14.03 tok/s。此外，在“潔淨室”驗證中達到13.91 tok/s。值得注意是，存在一個速度更快但未獲認證的16.53 tok/s結果，因其輸出連貫性未通過質量檢測。

質量門控是該項目的重要特徵。一個速度結果只有在輸出保持連貫時才被視為有效。研究使用簡短的事實或代碼提示進行測試，例如“塞爾維亞的首都是什麼？”或“編寫一個緊湊的Python函數檢查素數”。已知單純追求速度的專家縮減可能產生高令牌率但文本破碎，因此接受的記錄低於最快的原始速率以確保連貫性。

該項目完全開源，提供了完整的基準測試工具、MCP風格服務器、實驗日誌、論文草稿以及交互式儀表盤。開發者可以按照指南自行復現結果，包括設置環境、驗證配置以及運行記錄級實驗。需要注意的是，模型權重和IBM量子憑證不在倉庫中，用户需自行獲取。量子處理器的使用通過顯式標誌保護，默認為本地模擬或空運行。

這一研究不僅展示了在老舊硬件上運行大型語言模型的潛力，更開闢了一種將量子計算與傳統機器學習優化相結合的實用範式。它證明了即使不直接用量子計算機執行推理，量子採樣也能在超參數搜索空間中提供獨特的優勢，為未來混合計算架構提供了重要參考。