百度釋出Unlimited OCR:3B引數模型透過恆定KV快取實現長文件高效解析
百度開源了Unlimited OCR,這是一個30億引數的混合專家模型,採用參考滑動視窗注意力機制(R-SWA)保持KV快取恆定,從而在一次前向傳播中高效解析數十頁文件。在OmniDocBench v1.5上達到93.23分,比DeepSeek OCR基線高出6.22分,採用MIT許可證。
百度近期開源了Unlimited OCR,這是一個專注於長文件解析的端到端OCR模型。該模型基於DeepSeek OCR進行持續訓練,採用混合專家(MoE)架構,總引數量為30億,但推理時僅啟用其中5億引數,兼顧了效能與效率。
Unlimited OCR的核心創新在於參考滑動視窗注意力機制(R-SWA)。傳統的多頭注意力機制中,KV快取會隨著輸出序列長度線性增長,導致記憶體和延遲不斷上升。R-SWA打破了這一限制:每個生成的token僅關注所有參考token(包括視覺token和提示)以及前n個輸出token(預設n=128),更早的token會被丟棄。因此,KV快取大小保持恆定,其上限為參考token數加n。這意味著即使輸出長度遠大於n,記憶體佔用和每一步的延遲都保持不變。研究團隊將這一機制比喻為“軟遺忘”——就像抄書的人只盯著原文和剛寫的幾個詞,無需回顧所有已抄寫的內容。
在架構上,Unlimited OCR繼承了DeepSeek OCR的DeepEncoder作為壓縮引擎。DeepEncoder級聯了SAM-ViT(視窗注意力)和CLIP-ViT(全域性注意力),並透過16×的token壓縮將一張1024×1024的PDF影像轉換為僅256個視覺token。它支援兩種解析度模式:“基礎”模式(1024×1024)適用於多頁文件,“高達”模式(動態解析度)適用於單頁處理。
訓練方面,Unlimited OCR並非從零開始,而是在DeepSeek OCR檢查點上繼續訓練了4000步,凍結DeepEncoder僅訓練解碼器。訓練資料包含約200萬文件樣本,以9:1的比例混合單頁和多頁資料,在8×16塊A800 GPU上完成。
基準測試結果顯示,Unlimited OCR在OmniDocBench v1.5上達到93.23的總分,比DeepSeek OCR基線高出6.22分。具體指標上,文本編輯距離降至0.038,公式CDM提升至92.61,表格TEDS達到90.93,閱讀順序編輯距離為0.045。在v1.6版本上,總分進一步升至93.92,處於領先地位。速度方面,基礎模式下Unlimited OCR達到5580 TPS,比DeepSeek OCR的4951 TPS快12.7%;當輸出長度達到6000 token時,效能優勢擴大至35%。
Unlimited OCR特別適用於需要連續處理多頁文件的場景,例如整本書籍轉錄(40頁以上編輯距離低於0.11)、文件解析管道(一次前向提取文本、表格、公式和閱讀順序)、以及高吞吐量批次解析。研究團隊還指出R-SWA機制可推廣到語音識別和機器翻譯等任務。
該模型以MIT許可證開源,提供Transformers和SGLang兩種推理路徑。單頁解析可使用“高達”模式,多頁或PDF解析則呼叫“基礎”模式。不過,模型也存在一些侷限性:上下文視窗仍受限於32K token,多頁模式下僅支援基礎解析度可能導致小文本丟失,且R-SWA在語音和翻譯領域的應用尚待驗證。