2026-06-25 13:39 UTC+8站内改写2 分钟阅读更新: 2026-06-25 13:42 UTC+8

百度发布Unlimited OCR：3B参数模型通过恒定KV缓存实现长文档高效解析

百度开源了Unlimited OCR，这是一个30亿参数的混合专家模型，采用参考滑动窗口注意力机制（R-SWA）保持KV缓存恒定，从而在一次前向传播中高效解析数十页文档。在OmniDocBench v1.5上达到93.23分，比DeepSeek OCR基线高出6.22分，采用MIT许可证。

来源MarkTechPost作者: Asif Razzaq

百度近期开源了Unlimited OCR，这是一个专注于长文档解析的端到端OCR模型。该模型基于DeepSeek OCR进行持续训练，采用混合专家（MoE）架构，总参数量为30亿，但推理时仅激活其中5亿参数，兼顾了性能与效率。

Unlimited OCR的核心创新在于参考滑动窗口注意力机制（R-SWA）。传统的多头注意力机制中，KV缓存会随着输出序列长度线性增长，导致内存和延迟不断上升。R-SWA打破了这一限制：每个生成的token仅关注所有参考token（包括视觉token和提示）以及前n个输出token（默认n=128），更早的token会被丢弃。因此，KV缓存大小保持恒定，其上限为参考token数加n。这意味着即使输出长度远大于n，内存占用和每一步的延迟都保持不变。研究团队将这一机制比喻为“软遗忘”——就像抄书的人只盯着原文和刚写的几个词，无需回顾所有已抄写的内容。

在架构上，Unlimited OCR继承了DeepSeek OCR的DeepEncoder作为压缩引擎。DeepEncoder级联了SAM-ViT（窗口注意力）和CLIP-ViT（全局注意力），并通过16×的token压缩将一张1024×1024的PDF图像转换为仅256个视觉token。它支持两种分辨率模式：“基础”模式（1024×1024）适用于多页文档，“高达”模式（动态分辨率）适用于单页处理。

训练方面，Unlimited OCR并非从零开始，而是在DeepSeek OCR检查点上继续训练了4000步，冻结DeepEncoder仅训练解码器。训练数据包含约200万文档样本，以9:1的比例混合单页和多页数据，在8×16块A800 GPU上完成。

基准测试结果显示，Unlimited OCR在OmniDocBench v1.5上达到93.23的总分，比DeepSeek OCR基线高出6.22分。具体指标上，文本编辑距离降至0.038，公式CDM提升至92.61，表格TEDS达到90.93，阅读顺序编辑距离为0.045。在v1.6版本上，总分进一步升至93.92，处于领先地位。速度方面，基础模式下Unlimited OCR达到5580 TPS，比DeepSeek OCR的4951 TPS快12.7%；当输出长度达到6000 token时，性能优势扩大至35%。

Unlimited OCR特别适用于需要连续处理多页文档的场景，例如整本书籍转录（40页以上编辑距离低于0.11）、文档解析管道（一次前向提取文本、表格、公式和阅读顺序）、以及高吞吐量批量解析。研究团队还指出R-SWA机制可推广到语音识别和机器翻译等任务。

该模型以MIT许可证开源，提供Transformers和SGLang两种推理路径。单页解析可使用“高达”模式，多页或PDF解析则调用“基础”模式。不过，模型也存在一些局限性：上下文窗口仍受限于32K token，多页模式下仅支持基础分辨率可能导致小文本丢失，且R-SWA在语音和翻译领域的应用尚待验证。