2026-06-25 13:39 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-25 13:42 UTC+8

百度釋出Unlimited OCR：3B引數模型透過恆定KV快取實現長文件高效解析

百度開源了Unlimited OCR，這是一個30億引數的混合專家模型，採用參考滑動視窗注意力機制（R-SWA）保持KV快取恆定，從而在一次前向傳播中高效解析數十頁文件。在OmniDocBench v1.5上達到93.23分，比DeepSeek OCR基線高出6.22分，採用MIT許可證。

來源MarkTechPost作者: Asif Razzaq

百度近期開源了Unlimited OCR，這是一個專注於長文件解析的端到端OCR模型。該模型基於DeepSeek OCR進行持續訓練，採用混合專家（MoE）架構，總引數量為30億，但推理時僅啟用其中5億引數，兼顧了效能與效率。

Unlimited OCR的核心創新在於參考滑動視窗注意力機制（R-SWA）。傳統的多頭注意力機制中，KV快取會隨著輸出序列長度線性增長，導致記憶體和延遲不斷上升。R-SWA打破了這一限制：每個生成的token僅關注所有參考token（包括視覺token和提示）以及前n個輸出token（預設n=128），更早的token會被丟棄。因此，KV快取大小保持恆定，其上限為參考token數加n。這意味著即使輸出長度遠大於n，記憶體佔用和每一步的延遲都保持不變。研究團隊將這一機制比喻為“軟遺忘”——就像抄書的人只盯著原文和剛寫的幾個詞，無需回顧所有已抄寫的內容。

在架構上，Unlimited OCR繼承了DeepSeek OCR的DeepEncoder作為壓縮引擎。DeepEncoder級聯了SAM-ViT（視窗注意力）和CLIP-ViT（全域性注意力），並透過16×的token壓縮將一張1024×1024的PDF影像轉換為僅256個視覺token。它支援兩種解析度模式：“基礎”模式（1024×1024）適用於多頁文件，“高達”模式（動態解析度）適用於單頁處理。

訓練方面，Unlimited OCR並非從零開始，而是在DeepSeek OCR檢查點上繼續訓練了4000步，凍結DeepEncoder僅訓練解碼器。訓練資料包含約200萬文件樣本，以9:1的比例混合單頁和多頁資料，在8×16塊A800 GPU上完成。

基準測試結果顯示，Unlimited OCR在OmniDocBench v1.5上達到93.23的總分，比DeepSeek OCR基線高出6.22分。具體指標上，文本編輯距離降至0.038，公式CDM提升至92.61，表格TEDS達到90.93，閱讀順序編輯距離為0.045。在v1.6版本上，總分進一步升至93.92，處於領先地位。速度方面，基礎模式下Unlimited OCR達到5580 TPS，比DeepSeek OCR的4951 TPS快12.7%；當輸出長度達到6000 token時，效能優勢擴大至35%。

Unlimited OCR特別適用於需要連續處理多頁文件的場景，例如整本書籍轉錄（40頁以上編輯距離低於0.11）、文件解析管道（一次前向提取文本、表格、公式和閱讀順序）、以及高吞吐量批次解析。研究團隊還指出R-SWA機制可推廣到語音識別和機器翻譯等任務。

該模型以MIT許可證開源，提供Transformers和SGLang兩種推理路徑。單頁解析可使用“高達”模式，多頁或PDF解析則呼叫“基礎”模式。不過，模型也存在一些侷限性：上下文視窗仍受限於32K token，多頁模式下僅支援基礎解析度可能導致小文本丟失，且R-SWA在語音和翻譯領域的應用尚待驗證。