2026-06-25 14:39 UTC+9サイト内リライト2 分で読了更新: 2026-06-25 14:42 UTC+9

百度、Unlimited OCRを公開：KVキャッシュを一定に保つ3Bパラメータモデルで長文書を解析

百度はUnlimited OCRをオープンソース化しました。これは30億パラメータのMixture-of-Expertsモデルで、Reference Sliding Window Attention（R-SWA）によりKVキャッシュを一定に保ち、一度のフォワードパスで数十ページの文書を効率的に解析します。OmniDocBench v1.5で93.23を達成し、DeepSeek OCRベースラインを6.22ポイント上回り、MITライセンスで提供されます。

ソースMarkTechPost著者: Asif Razzaq

百度は最近、長文書解析に特化したエンドツーエンドOCRモデル「Unlimited OCR」をオープンソース化しました。本モデルはDeepSeek OCRをベースに継続学習され、Mixture-of-Experts（MoE）アーキテクチャを採用しています。総パラメータ数は30億ですが、推論時には5億パラメータのみが活性化され、性能と効率を両立しています。

Unlimited OCRの核心はReference Sliding Window Attention（R-SWA）にあります。従来のマルチヘッドアテンションでは、出力系列が長くなるにつれてKVキャッシュが線形に増加し、メモリとレイテンシが上昇します。R-SWAはこの制約を打破します。各生成トークンは、すべての参照トークン（視覚トークンとプロンプト）および直前のn個（デフォルト128）の出力トークンのみに注意を払い、それ以前のトークンは破棄されます。これにより、KVキャッシュサイズは一定に保たれ、その上限は参照トークン数＋nとなります。出力長がnをはるかに超えても、メモリ使用量とステップごとのレイテンシは変わりません。研究チームはこの仕組みを「ソフトフォゲッティング（soft forgetting）」に例えています。

アーキテクチャ面では、Unlimited OCRはDeepEncoderを圧縮エンジンとして継承しています。DeepEncoderはSAM-ViT（ウィンドウアテンション）とCLIP-ViT（グローバルアテンション）をカスケードし、16倍のトークン圧縮によって1024×1024のPDF画像をわずか256の視覚トークンに変換します。2つの解像度モードをサポートしており、「Base」モード（1024×1024）は複数ページの文書に、「Gundam」モード（動的解像度）は単一ページの処理に適しています。

学習はスクラッチからではなく、DeepSeek OCRのチェックポイントから4000ステップの継続学習で行われました。DeepEncoderは凍結され、デコーダーのみが訓練されています。約200万の文書サンプル（単一ページと複数ページを9:1で混合）を使用し、8×16のA800 GPU上で実行されました。

ベンチマークでは、Unlimited OCRはOmniDocBench v1.5で総合スコア93.23を達成し、DeepSeek OCRベースラインを6.22ポイント上回りました。個別指標では、テキスト編集距離0.038、フォーミュラCDM 92.61、テーブルTEDS 90.93、読み取り順序編集距離0.045と良好な結果を示しています。v1.6では総合スコア93.92に達し、最先端の性能を実証しました。速度面では、Baseモードで5580 TPS（DeepSeek OCRは4951 TPS）を記録し、12.7%の向上を達成。出力長6000トークンでは35%の差がついています。

Unlimited OCRは、複数ページ文書を連続処理する必要のあるワークロードに特に適しています。例えば、40ページ以上の書籍全体の転写（編集距離0.11未満）、テキスト・表・数式・読み取り順序を一度に抽出する文書解析パイプライン、高スループットのバッチ解析などが挙げられます。研究チームはR-SWAを汎用的な解析アテンションと位置付け、音声認識や翻訳への応用も視野に入れています。

本モデルはMITライセンスで公開され、TransformersとSGLangの両方に対応しています。単一ページ解析にはGundamモード、複数ページやPDF解析にはBaseモードを使用します。ただし、コンテキストウィンドウは32Kトークンに制限されており、複数ページモードではBase解像度のみのため小さな文字を見逃す可能性があるほか、音声認識や翻訳への転用は今後の課題とされています。