百度、Unlimited OCRを公開:KVキャッシュを一定に保つ3Bパラメータモデルで長文書を解析
百度はUnlimited OCRをオープンソース化しました。これは30億パラメータのMixture-of-Expertsモデルで、Reference Sliding Window Attention(R-SWA)によりKVキャッシュを一定に保ち、一度のフォワードパスで数十ページの文書を効率的に解析します。OmniDocBench v1.5で93.23を達成し、DeepSeek OCRベースラインを6.22ポイント上回り、MITライセンスで提供されます。
百度は最近、長文書解析に特化したエンドツーエンドOCRモデル「Unlimited OCR」をオープンソース化しました。本モデルはDeepSeek OCRをベースに継続学習され、Mixture-of-Experts(MoE)アーキテクチャを採用しています。総パラメータ数は30億ですが、推論時には5億パラメータのみが活性化され、性能と効率を両立しています。
Unlimited OCRの核心はReference Sliding Window Attention(R-SWA)にあります。従来のマルチヘッドアテンションでは、出力系列が長くなるにつれてKVキャッシュが線形に増加し、メモリとレイテンシが上昇します。R-SWAはこの制約を打破します。各生成トークンは、すべての参照トークン(視覚トークンとプロンプト)および直前のn個(デフォルト128)の出力トークンのみに注意を払い、それ以前のトークンは破棄されます。これにより、KVキャッシュサイズは一定に保たれ、その上限は参照トークン数+nとなります。出力長がnをはるかに超えても、メモリ使用量とステップごとのレイテンシは変わりません。研究チームはこの仕組みを「ソフトフォゲッティング(soft forgetting)」に例えています。
アーキテクチャ面では、Unlimited OCRはDeepEncoderを圧縮エンジンとして継承しています。DeepEncoderはSAM-ViT(ウィンドウアテンション)とCLIP-ViT(グローバルアテンション)をカスケードし、16倍のトークン圧縮によって1024×1024のPDF画像をわずか256の視覚トークンに変換します。2つの解像度モードをサポートしており、「Base」モード(1024×1024)は複数ページの文書に、「Gundam」モード(動的解像度)は単一ページの処理に適しています。
学習はスクラッチからではなく、DeepSeek OCRのチェックポイントから4000ステップの継続学習で行われました。DeepEncoderは凍結され、デコーダーのみが訓練されています。約200万の文書サンプル(単一ページと複数ページを9:1で混合)を使用し、8×16のA800 GPU上で実行されました。
ベンチマークでは、Unlimited OCRはOmniDocBench v1.5で総合スコア93.23を達成し、DeepSeek OCRベースラインを6.22ポイント上回りました。個別指標では、テキスト編集距離0.038、フォーミュラCDM 92.61、テーブルTEDS 90.93、読み取り順序編集距離0.045と良好な結果を示しています。v1.6では総合スコア93.92に達し、最先端の性能を実証しました。速度面では、Baseモードで5580 TPS(DeepSeek OCRは4951 TPS)を記録し、12.7%の向上を達成。出力長6000トークンでは35%の差がついています。
Unlimited OCRは、複数ページ文書を連続処理する必要のあるワークロードに特に適しています。例えば、40ページ以上の書籍全体の転写(編集距離0.11未満)、テキスト・表・数式・読み取り順序を一度に抽出する文書解析パイプライン、高スループットのバッチ解析などが挙げられます。研究チームはR-SWAを汎用的な解析アテンションと位置付け、音声認識や翻訳への応用も視野に入れています。
本モデルはMITライセンスで公開され、TransformersとSGLangの両方に対応しています。単一ページ解析にはGundamモード、複数ページやPDF解析にはBaseモードを使用します。ただし、コンテキストウィンドウは32Kトークンに制限されており、複数ページモードではBase解像度のみのため小さな文字を見逃す可能性があるほか、音声認識や翻訳への転用は今後の課題とされています。