AI News HubLIVE
站内改写2 分钟阅读

Tether 将 TurboQuant 引入其本地 AI 引擎 QVAC SDK

QVAC SDK 0.12.0 引入了 TurboQuant,这是一种 KV 缓存量化算法,可将上下文内存占用减少约 5 倍,使本地 AI 能在消费级 GPU 上处理 262K 令牌的全长上下文。该算法来自 Google Research 的 ICLR 2026 论文,无需重新训练模型即可生效。

来源Hacker News AI作者: qvac

如果您曾将长文档粘贴到本地 AI 应用中,并看到模型在页面中途因“上下文长度超限”而停止,那么您已经遇到了多年来限制本地 AI 发展的内存瓶颈。问题不在于模型本身,而在于内存——即键值(KV)缓存。

QVAC SDK 0.12.0 改变了这一点。TurboQuant 是一种 KV 缓存量化算法,由 Google Research 在 ICLR 2026 上发表(Zandieh 等人)。它能在保持精度的同时,将 KV 缓存从 16 位压缩到约 3 位每个值,从而在实际使用中将上下文内存占用降低多达 5 倍。

什么是 KV 缓存?它就像 LLM 在对话期间维护的工作记忆——每个提示词、之前的回复和附加文档都以键值对的形式存储在本地设备上。这种缓存使模型能够维护长上下文的一致性,而无需在每个令牌上从头开始重新处理所有内容。但代价是:缓存大小随上下文长度和模型深度线性增长。例如,一个 Qwen3.5-4B 模型在 262K 令牌下,以 16 位精度存储约 8 GB 的 KV 数据——这比 Q8 权重大小本身还要大两倍。因此,KV 缓存才是导致 VRAM 超限的真正原因,而非模型权重。

本地 AI 面临两道内存墙。第一道是模型权重必须适配设备的有限内存;一旦适配,KV 缓存就成为第二道墙,限制可处理的上下文长度。TurboQuant 专门攻击这第二道墙。

SDK 0.12.0 为您的应用带来了什么变化?根据官方估算,在 RTX 5060(8 GB VRAM)上,不使用 TurboQuant 时可用 KV 预算约为 3.7 GB,支持约 120K 令牌;启用后,可达到 262K 令牌的完整上下文。RTX 5070(12 GB)从约 250K 提升至完整 262K;RTX 5090(32 GB)和 AMD Ryzen AI Max+ 395(128 GB)本身已支持全上下文,但 TurboQuant 进一步节省了内存空间。注意:这些数据未计入推理时分配的计算缓冲区,因此是近似值。

这种提升的实际意义包括:本地编码助手可容纳完整代码库、长文档分析(法律合同、研究论文、代码库)、在单张消费级 GPU 上运行具有 200K+ 上下文的本地 4B+ 模型,以及为 HIPAA/GDPR 工作负载部署本地企业级推理服务器。

如何在您的应用中使用 TurboQuant?只需更新 SDK 至 0.12.0:运行 npm install @qvac/sdk@latest,然后在加载模型时传入 turboquant 标志即可。目前该功能仅支持 AMD 和 NVIDIA GPU,对 iOS、Android 和 Apple Silicon 的支持即将推出。

为什么这很重要?长期以来,上下文上限实际上就是访问上限。如果您能负担云 API,就没有 KV 缓存问题——服务器农场拥有几乎无限的内存。而如果您想在自己拥有的设备上运行 AI,并让数据保留在本地,就会碰到这道墙。TurboQuant 缩小了这种差距。您已有的相同模型文件,在已有设备上获得了六倍的内存余量。更多设备能够运行实际工作负载;更多人能够直接访问运行在自己硬件上的智能,而非远在天边的数据中心。