2026-06-01 23:14 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Tether 将 TurboQuant 引入其本地 AI 引擎 QVAC SDK

QVAC SDK 0.12.0 引入了 TurboQuant，这是一种 KV 缓存量化算法，可将上下文内存占用减少约 5 倍，使本地 AI 能在消费级 GPU 上处理 262K 令牌的全长上下文。该算法来自 Google Research 的 ICLR 2026 论文，无需重新训练模型即可生效。

来源Hacker News AI作者: qvac

如果您曾将长文档粘贴到本地 AI 应用中，并看到模型在页面中途因“上下文长度超限”而停止，那么您已经遇到了多年来限制本地 AI 发展的内存瓶颈。问题不在于模型本身，而在于内存——即键值（KV）缓存。

QVAC SDK 0.12.0 改变了这一点。TurboQuant 是一种 KV 缓存量化算法，由 Google Research 在 ICLR 2026 上发表（Zandieh 等人）。它能在保持精度的同时，将 KV 缓存从 16 位压缩到约 3 位每个值，从而在实际使用中将上下文内存占用降低多达 5 倍。

什么是 KV 缓存？它就像 LLM 在对话期间维护的工作记忆——每个提示词、之前的回复和附加文档都以键值对的形式存储在本地设备上。这种缓存使模型能够维护长上下文的一致性，而无需在每个令牌上从头开始重新处理所有内容。但代价是：缓存大小随上下文长度和模型深度线性增长。例如，一个 Qwen3.5-4B 模型在 262K 令牌下，以 16 位精度存储约 8 GB 的 KV 数据——这比 Q8 权重大小本身还要大两倍。因此，KV 缓存才是导致 VRAM 超限的真正原因，而非模型权重。

本地 AI 面临两道内存墙。第一道是模型权重必须适配设备的有限内存；一旦适配，KV 缓存就成为第二道墙，限制可处理的上下文长度。TurboQuant 专门攻击这第二道墙。

SDK 0.12.0 为您的应用带来了什么变化？根据官方估算，在 RTX 5060（8 GB VRAM）上，不使用 TurboQuant 时可用 KV 预算约为 3.7 GB，支持约 120K 令牌；启用后，可达到 262K 令牌的完整上下文。RTX 5070（12 GB）从约 250K 提升至完整 262K；RTX 5090（32 GB）和 AMD Ryzen AI Max+ 395（128 GB）本身已支持全上下文，但 TurboQuant 进一步节省了内存空间。注意：这些数据未计入推理时分配的计算缓冲区，因此是近似值。

这种提升的实际意义包括：本地编码助手可容纳完整代码库、长文档分析（法律合同、研究论文、代码库）、在单张消费级 GPU 上运行具有 200K+ 上下文的本地 4B+ 模型，以及为 HIPAA/GDPR 工作负载部署本地企业级推理服务器。

如何在您的应用中使用 TurboQuant？只需更新 SDK 至 0.12.0：运行 npm install @qvac/sdk@latest，然后在加载模型时传入 turboquant 标志即可。目前该功能仅支持 AMD 和 NVIDIA GPU，对 iOS、Android 和 Apple Silicon 的支持即将推出。

为什么这很重要？长期以来，上下文上限实际上就是访问上限。如果您能负担云 API，就没有 KV 缓存问题——服务器农场拥有几乎无限的内存。而如果您想在自己拥有的设备上运行 AI，并让数据保留在本地，就会碰到这道墙。TurboQuant 缩小了这种差距。您已有的相同模型文件，在已有设备上获得了六倍的内存余量。更多设备能够运行实际工作负载；更多人能够直接访问运行在自己硬件上的智能，而非远在天边的数据中心。