2026-05-30 09:55 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

利用IBM量子采样循环调优仅CPU的Qwen3-30B推理

一个研究项目展示了在2017年MacBook Air上，通过结合人类实验者、Codex、llama.cpp、本地数据库和IBM量子处理器采样，将Qwen3-30B模型的推理速度从0.09 tokens/sec提升至14.03 tokens/sec，同时保持输出连贯性。该方法并非在量子处理器上运行模型，而是用量子采样优化推理配置。

来源Hacker News AI作者: Royce-CMR

一项突破性的研究展示了如何在一台2017年款的MacBook Air（仅8GB内存，无GPU）上，将Qwen3-30B这一大型混合专家模型（MoE）的推理速度提升超过150倍。该项目并非直接在量子计算机上运行模型，而是创造性地利用IBM量子处理器作为“候选配置采样器”，与人类研究者、AI编码助手Codex以及本地llama.cpp推理引擎协同工作，形成一个高效的自动研究闭环。

项目的核心是一个同步循环：人类实验者设定目标和约束，Codex负责提出、修改、运行、记录并解释实验；MacBook通过llama.cpp执行真实推理并评估候选方案；本地数据库记录运行状态；紧凑的候选选择被压缩为QUBO（二次无约束二进制优化）形式，提交给IBM量子处理器采样比特串；Codex将这些比特串解码为具体的llama.cpp配置，再由MacBook测试。量子处理器优化了候选选择环节，而MacBook始终是最终的评判者。

在性能提升方面，初始基线仅为约0.09个生成令牌/秒。经过经典系统优化后，达到6.49 tok/s。第一次引入IBM量子采样后，速度跃升至13.12 tok/s。通过严格质量门控（确保输出连贯性）的记录为14.03 tok/s。此外，在“洁净室”验证中达到13.91 tok/s。值得注意是，存在一个速度更快但未获认证的16.53 tok/s结果，因其输出连贯性未通过质量检测。

质量门控是该项目的重要特征。一个速度结果只有在输出保持连贯时才被视为有效。研究使用简短的事实或代码提示进行测试，例如“塞尔维亚的首都是什么？”或“编写一个紧凑的Python函数检查素数”。已知单纯追求速度的专家缩减可能产生高令牌率但文本破碎，因此接受的记录低于最快的原始速率以确保连贯性。

该项目完全开源，提供了完整的基准测试工具、MCP风格服务器、实验日志、论文草稿以及交互式仪表盘。开发者可以按照指南自行复现结果，包括设置环境、验证配置以及运行记录级实验。需要注意的是，模型权重和IBM量子凭证不在仓库中，用户需自行获取。量子处理器的使用通过显式标志保护，默认为本地模拟或空运行。

这一研究不仅展示了在老旧硬件上运行大型语言模型的潜力，更开辟了一种将量子计算与传统机器学习优化相结合的实用范式。它证明了即使不直接用量子计算机执行推理，量子采样也能在超参数搜索空间中提供独特的优势，为未来混合计算架构提供了重要参考。