AI News HubLIVE
站內改寫2 分鐘閱讀

百度發佈Unlimited OCR:3B參數模型通過恆定KV緩存實現長文檔高效解析

百度開源了Unlimited OCR,這是一個30億參數的混合專家模型,採用參考滑動窗口注意力機制(R-SWA)保持KV緩存恆定,從而在一次前向傳播中高效解析數十頁文檔。在OmniDocBench v1.5上達到93.23分,比DeepSeek OCR基線高出6.22分,採用MIT許可證。

來源MarkTechPost作者: Asif Razzaq

百度近期開源了Unlimited OCR,這是一個專注於長文檔解析的端到端OCR模型。該模型基於DeepSeek OCR進行持續訓練,採用混合專家(MoE)架構,總參數量為30億,但推理時僅激活其中5億參數,兼顧了性能與效率。

Unlimited OCR的核心創新在於參考滑動窗口注意力機制(R-SWA)。傳統的多頭注意力機制中,KV緩存會隨着輸出序列長度線性增長,導致內存和延遲不斷上升。R-SWA打破了這一限制:每個生成的token僅關注所有參考token(包括視覺token和提示)以及前n個輸出token(默認n=128),更早的token會被丟棄。因此,KV緩存大小保持恆定,其上限為參考token數加n。這意味着即使輸出長度遠大於n,內存佔用和每一步的延遲都保持不變。研究團隊將這一機制比喻為“軟遺忘”——就像抄書的人只盯着原文和剛寫的幾個詞,無需回顧所有已抄寫的內容。

在架構上,Unlimited OCR繼承了DeepSeek OCR的DeepEncoder作為壓縮引擎。DeepEncoder級聯了SAM-ViT(窗口注意力)和CLIP-ViT(全局注意力),並通過16×的token壓縮將一張1024×1024的PDF圖像轉換為僅256個視覺token。它支持兩種分辨率模式:“基礎”模式(1024×1024)適用於多頁文檔,“高達”模式(動態分辨率)適用於單頁處理。

訓練方面,Unlimited OCR並非從零開始,而是在DeepSeek OCR檢查點上繼續訓練了4000步,凍結DeepEncoder僅訓練解碼器。訓練數據包含約200萬文檔樣本,以9:1的比例混合單頁和多頁數據,在8×16塊A800 GPU上完成。

基準測試結果顯示,Unlimited OCR在OmniDocBench v1.5上達到93.23的總分,比DeepSeek OCR基線高出6.22分。具體指標上,文本編輯距離降至0.038,公式CDM提升至92.61,表格TEDS達到90.93,閲讀順序編輯距離為0.045。在v1.6版本上,總分進一步升至93.92,處於領先地位。速度方面,基礎模式下Unlimited OCR達到5580 TPS,比DeepSeek OCR的4951 TPS快12.7%;當輸出長度達到6000 token時,性能優勢擴大至35%。

Unlimited OCR特別適用於需要連續處理多頁文檔的場景,例如整本書籍轉錄(40頁以上編輯距離低於0.11)、文檔解析管道(一次前向提取文本、表格、公式和閲讀順序)、以及高吞吐量批量解析。研究團隊還指出R-SWA機制可推廣到語音識別和機器翻譯等任務。

該模型以MIT許可證開源,提供Transformers和SGLang兩種推理路徑。單頁解析可使用“高達”模式,多頁或PDF解析則調用“基礎”模式。不過,模型也存在一些侷限性:上下文窗口仍受限於32K token,多頁模式下僅支持基礎分辨率可能導致小文本丟失,且R-SWA在語音和翻譯領域的應用尚待驗證。