2026-05-31 06:07 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Show HN：Thaw – 运行中大语言模型的 Git 分支（分叉代理，跳过预填充）

Thaw 是一个开源工具，能够将运行中的大语言模型（LLM）会话分叉到多个分支，跳过昂贵的预填充阶段，实现 AI 代理的并行探索。在 H100 GPU 上，它实现了次秒级的分叉时间（中位数 0.88 秒），相比之下冷启动需要约 340 秒。Thaw 支持 vLLM 和 SGLang，使用场景包括代理分支、强化学习训练、并行编码代理和会话迁移。

来源Hacker News AI作者: nilsmatteson

Thaw 是一个为 AI 代理提供分叉原语的开源工具。它允许你像 Git 分支一样，将一个运行中的大语言模型（LLM）会话快照并分叉到多个并行子进程，共享权重和 KV 缓存，从而跳过昂贵的预填充阶段。该项目已在 GitHub 上发布，许可证为 Apache-2.0。

Thaw 的核心是一个预热的子进程池（ForkPool），引擎只启动一次，后续每次调用 fork_completions() 仅快照 KV 缓存。在 H100 80GB PCIe GPU 上使用 Llama-3.1-8B 模型时，首次分叉耗时 1.16 秒，中位数分叉仅 0.88 秒，而冷启动需要约 340 秒，加速比约 400 倍。所有分支在分叉边界处比特一致且互异。

Thaw 的应用场景广泛：代理分支允许在推理过程中将对话分叉为多个并行假设，选择最佳结果；强化学习后训练（如 PPO、DPO、树状 GRPO）将每个分支的预填充时间替换为内存拷贝时间，大幅降低成本；并行编码代理可让 8 个代理探索 8 种解决方案，而无需为每个分支支付完整的预填充开销；会话迁移则允许在不丢失状态的情况下，将实时推理会话迁移到其他 GPU、集群或数据中心。

技术实现上，Thaw 组合了四个原语：冻结权重、冻结 KV 缓存、冻结调度器状态，以及将三者恢复到新进程中。它可以将完整的引擎状态保存为两个二进制文件（.thaw 和 .thawkv），并通过双缓冲流水线 DMA 从磁盘或预存内存中快速恢复。Thaw 支持三种恢复模式：磁盘模式（使用 O_DIRECT 绕过内核缓存）、预存 RAM 模式（通过 mmap + cudaHostRegister 实现零拷贝路径）、以及插槽热交换模式（thaw serve 将 mmap 钉住，后续交换仅需纯 PCIe DMA，对 8B 模型仅需 0.29 秒）。KV 缓存快照是技术上最困难的部分——thaw 序列化块内容、哈希表和调度器视图，使得父进程中缓存的请求前缀在子进程中立即命中缓存。

Thaw 还与 vLLM 的睡眠模式集成（RFC #34303），支持在 GPU 内存释放后通过 LLM.sleep(level=2) 和 LLM.wake_up() 组合实现比特一致的恢复。对于 70B 模型（TP=2），睡眠释放 72.67 GiB/rank，唤醒恢复时间约 53.6 秒。

项目架构基于 Rust，包含多个 crate：thaw-core（文件格式和 I/O）、thaw-cuda-sys（CUDA FFI 绑定）、thaw-runtime（编排流程，支持模拟 CUDA 以便在 Mac 上测试）、thaw-py（Python 绑定）、thaw-cli（基准测试工具）。Python 层提供 vLLM 和 SGLang 集成，以及引擎池和 OpenAI 兼容 API 服务器。

快速开始只需 pip install thaw-vllm[all]，然后即可使用 ForkPool 进行分叉。更多详情和基准测试方法请参阅项目文档。