2026-06-25 13:39 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-25 13:42 UTC+8

百度發佈Unlimited OCR：3B參數模型通過恆定KV緩存實現長文檔高效解析

百度開源了Unlimited OCR，這是一個30億參數的混合專家模型，採用參考滑動窗口注意力機制（R-SWA）保持KV緩存恆定，從而在一次前向傳播中高效解析數十頁文檔。在OmniDocBench v1.5上達到93.23分，比DeepSeek OCR基線高出6.22分，採用MIT許可證。

來源MarkTechPost作者: Asif Razzaq

百度近期開源了Unlimited OCR，這是一個專注於長文檔解析的端到端OCR模型。該模型基於DeepSeek OCR進行持續訓練，採用混合專家（MoE）架構，總參數量為30億，但推理時僅激活其中5億參數，兼顧了性能與效率。

Unlimited OCR的核心創新在於參考滑動窗口注意力機制（R-SWA）。傳統的多頭注意力機制中，KV緩存會隨着輸出序列長度線性增長，導致內存和延遲不斷上升。R-SWA打破了這一限制：每個生成的token僅關注所有參考token（包括視覺token和提示）以及前n個輸出token（默認n=128），更早的token會被丟棄。因此，KV緩存大小保持恆定，其上限為參考token數加n。這意味着即使輸出長度遠大於n，內存佔用和每一步的延遲都保持不變。研究團隊將這一機制比喻為“軟遺忘”——就像抄書的人只盯着原文和剛寫的幾個詞，無需回顧所有已抄寫的內容。

在架構上，Unlimited OCR繼承了DeepSeek OCR的DeepEncoder作為壓縮引擎。DeepEncoder級聯了SAM-ViT（窗口注意力）和CLIP-ViT（全局注意力），並通過16×的token壓縮將一張1024×1024的PDF圖像轉換為僅256個視覺token。它支持兩種分辨率模式：“基礎”模式（1024×1024）適用於多頁文檔，“高達”模式（動態分辨率）適用於單頁處理。

訓練方面，Unlimited OCR並非從零開始，而是在DeepSeek OCR檢查點上繼續訓練了4000步，凍結DeepEncoder僅訓練解碼器。訓練數據包含約200萬文檔樣本，以9:1的比例混合單頁和多頁數據，在8×16塊A800 GPU上完成。

基準測試結果顯示，Unlimited OCR在OmniDocBench v1.5上達到93.23的總分，比DeepSeek OCR基線高出6.22分。具體指標上，文本編輯距離降至0.038，公式CDM提升至92.61，表格TEDS達到90.93，閲讀順序編輯距離為0.045。在v1.6版本上，總分進一步升至93.92，處於領先地位。速度方面，基礎模式下Unlimited OCR達到5580 TPS，比DeepSeek OCR的4951 TPS快12.7%；當輸出長度達到6000 token時，性能優勢擴大至35%。

Unlimited OCR特別適用於需要連續處理多頁文檔的場景，例如整本書籍轉錄（40頁以上編輯距離低於0.11）、文檔解析管道（一次前向提取文本、表格、公式和閲讀順序）、以及高吞吐量批量解析。研究團隊還指出R-SWA機制可推廣到語音識別和機器翻譯等任務。

該模型以MIT許可證開源，提供Transformers和SGLang兩種推理路徑。單頁解析可使用“高達”模式，多頁或PDF解析則調用“基礎”模式。不過，模型也存在一些侷限性：上下文窗口仍受限於32K token，多頁模式下僅支持基礎分辨率可能導致小文本丟失，且R-SWA在語音和翻譯領域的應用尚待驗證。