AI News HubLIVE
站内改写

利用IBM量子采样循环调优仅CPU的Qwen3-30B推理

一个研究项目展示了在2017年MacBook Air上,通过结合人类实验者、Codex、llama.cpp、本地数据库和IBM量子处理器采样,将Qwen3-30B模型的推理速度从0.09 tokens/sec提升至14.03 tokens/sec,同时保持输出连贯性。该方法并非在量子处理器上运行模型,而是用量子采样优化推理配置。

文章情报

工程师进阶

要点

  • 在8GB内存的2017年MacBook Air上,无GPU运行Qwen3-30B模型
  • 通过人机协同量子优化循环,速度从0.09 tok/s提升到14.03 tok/s
  • 严格质量门控确保输出连贯性,避免单纯追求速度
  • IBM量子处理器用于候选配置采样,本地llama.cpp进行测试

为什么重要

这条新闻值得关注,因为在8GB内存的2017年MacBook Air上,无GPU运行Qwen3-30B模型。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

一项突破性的研究展示了如何在一台2017年款的MacBook Air(仅8GB内存,无GPU)上,将Qwen3-30B这一大型混合专家模型(MoE)的推理速度提升超过150倍。该项目并非直接在量子计算机上运行模型,而是创造性地利用IBM量子处理器作为“候选配置采样器”,与人类研究者、AI编码助手Codex以及本地llama.cpp推理引擎协同工作,形成一个高效的自动研究闭环。

项目的核心是一个同步循环:人类实验者设定目标和约束,Codex负责提出、修改、运行、记录并解释实验;MacBook通过llama.cpp执行真实推理并评估候选方案;本地数据库记录运行状态;紧凑的候选选择被压缩为QUBO(二次无约束二进制优化)形式,提交给IBM量子处理器采样比特串;Codex将这些比特串解码为具体的llama.cpp配置,再由MacBook测试。量子处理器优化了候选选择环节,而MacBook始终是最终的评判者。

在性能提升方面,初始基线仅为约0.09个生成令牌/秒。经过经典系统优化后,达到6.49 tok/s。第一次引入IBM量子采样后,速度跃升至13.12 tok/s。通过严格质量门控(确保输出连贯性)的记录为14.03 tok/s。此外,在“洁净室”验证中达到13.91 tok/s。值得注意是,存在一个速度更快但未获认证的16.53 tok/s结果,因其输出连贯性未通过质量检测。

质量门控是该项目的重要特征。一个速度结果只有在输出保持连贯时才被视为有效。研究使用简短的事实或代码提示进行测试,例如“塞尔维亚的首都是什么?”或“编写一个紧凑的Python函数检查素数”。已知单纯追求速度的专家缩减可能产生高令牌率但文本破碎,因此接受的记录低于最快的原始速率以确保连贯性。

该项目完全开源,提供了完整的基准测试工具、MCP风格服务器、实验日志、论文草稿以及交互式仪表盘。开发者可以按照指南自行复现结果,包括设置环境、验证配置以及运行记录级实验。需要注意的是,模型权重和IBM量子凭证不在仓库中,用户需自行获取。量子处理器的使用通过显式标志保护,默认为本地模拟或空运行。

这一研究不仅展示了在老旧硬件上运行大型语言模型的潜力,更开辟了一种将量子计算与传统机器学习优化相结合的实用范式。它证明了即使不直接用量子计算机执行推理,量子采样也能在超参数搜索空间中提供独特的优势,为未来混合计算架构提供了重要参考。