AI News HubLIVE
站内改写2 分钟阅读

百度发布Unlimited OCR:3B参数模型通过恒定KV缓存实现长文档高效解析

百度开源了Unlimited OCR,这是一个30亿参数的混合专家模型,采用参考滑动窗口注意力机制(R-SWA)保持KV缓存恒定,从而在一次前向传播中高效解析数十页文档。在OmniDocBench v1.5上达到93.23分,比DeepSeek OCR基线高出6.22分,采用MIT许可证。

来源MarkTechPost作者: Asif Razzaq

百度近期开源了Unlimited OCR,这是一个专注于长文档解析的端到端OCR模型。该模型基于DeepSeek OCR进行持续训练,采用混合专家(MoE)架构,总参数量为30亿,但推理时仅激活其中5亿参数,兼顾了性能与效率。

Unlimited OCR的核心创新在于参考滑动窗口注意力机制(R-SWA)。传统的多头注意力机制中,KV缓存会随着输出序列长度线性增长,导致内存和延迟不断上升。R-SWA打破了这一限制:每个生成的token仅关注所有参考token(包括视觉token和提示)以及前n个输出token(默认n=128),更早的token会被丢弃。因此,KV缓存大小保持恒定,其上限为参考token数加n。这意味着即使输出长度远大于n,内存占用和每一步的延迟都保持不变。研究团队将这一机制比喻为“软遗忘”——就像抄书的人只盯着原文和刚写的几个词,无需回顾所有已抄写的内容。

在架构上,Unlimited OCR继承了DeepSeek OCR的DeepEncoder作为压缩引擎。DeepEncoder级联了SAM-ViT(窗口注意力)和CLIP-ViT(全局注意力),并通过16×的token压缩将一张1024×1024的PDF图像转换为仅256个视觉token。它支持两种分辨率模式:“基础”模式(1024×1024)适用于多页文档,“高达”模式(动态分辨率)适用于单页处理。

训练方面,Unlimited OCR并非从零开始,而是在DeepSeek OCR检查点上继续训练了4000步,冻结DeepEncoder仅训练解码器。训练数据包含约200万文档样本,以9:1的比例混合单页和多页数据,在8×16块A800 GPU上完成。

基准测试结果显示,Unlimited OCR在OmniDocBench v1.5上达到93.23的总分,比DeepSeek OCR基线高出6.22分。具体指标上,文本编辑距离降至0.038,公式CDM提升至92.61,表格TEDS达到90.93,阅读顺序编辑距离为0.045。在v1.6版本上,总分进一步升至93.92,处于领先地位。速度方面,基础模式下Unlimited OCR达到5580 TPS,比DeepSeek OCR的4951 TPS快12.7%;当输出长度达到6000 token时,性能优势扩大至35%。

Unlimited OCR特别适用于需要连续处理多页文档的场景,例如整本书籍转录(40页以上编辑距离低于0.11)、文档解析管道(一次前向提取文本、表格、公式和阅读顺序)、以及高吞吐量批量解析。研究团队还指出R-SWA机制可推广到语音识别和机器翻译等任务。

该模型以MIT许可证开源,提供Transformers和SGLang两种推理路径。单页解析可使用“高达”模式,多页或PDF解析则调用“基础”模式。不过,模型也存在一些局限性:上下文窗口仍受限于32K token,多页模式下仅支持基础分辨率可能导致小文本丢失,且R-SWA在语音和翻译领域的应用尚待验证。