Hugging Face 上の PP-OCRv6: 1.5M から 34.5M パラメータの 50 言語対応 OCR
PP-OCRv6 は PaddleOCR の最新の汎用 OCR モデルファミリーで、1.5M から 34.5M パラメータの 3 つのティアにわたり、50 言語をサポートします。PP-OCRv5_server と比較して、テキスト検出の Hmean が +4.6 ポイント、認識精度が +5.1 ポイント向上しました。新アーキテクチャには PPLCNetV4 バックボーン、RepLKFPN 検出モジュール、EncoderWithLightSVTR 認識モジュールが含まれます。Paddle Inference、Transformers、ONNX Runtime の複数の推論バックエンドをサポートします。
PP-OCRv6 は、百度の PaddleOCR チームが開発した最新の汎用光学文字認識(OCR)モデルファミリーであり、ドキュメント、スクリーンショット、多言語画像、デジタルディスプレイ、産業ラベル、シーンテキストなど、実世界のテキスト検出と認識を対象としています。
このモデルファミリーは、tiny(1.5M パラメータ)、small(7.7M)、medium(34.5M)の 3 つのティアを提供し、それぞれ異なる展開ニーズに対応します。medium と small ティアは、簡体字中国語、繁体字中国語、英語、日本語、および 46 のラテン文字言語を含む 50 言語をサポートします。PaddleOCR の公式マルチシーン OCR ベンチマークでは、PP-OCRv6_medium が検出 Hmean 86.2%、認識精度 83.2% を達成しました。前世代の PP-OCRv5_server と比較して、テキスト検出が 4.6 ポイント、テキスト認識が 5.1 ポイント向上しています。
PP-OCRv6 は、アーキテクチャ、トレーニング、データの面で複数の改善を導入しています。統一バックボーンとして PPLCNetV4 を採用し、検出と認識の両方で一貫性を確保しています。検出モジュールには RepLKFPN(軽量大カーネル特徴ピラミッドネットワーク)を採用し、マルチスケールテキストを効果的に処理し、小さく密集した回転や低解像度のテキストにも対応します。認識モジュールには EncoderWithLightSVTR を使用し、局所コンテキストモデリングとグローバルアテンションを組み合わせることで、多言語テキスト、スクリーンテキスト、産業文字、特殊記号、ノイズの多い領域などの難しいテキストの認識品質を向上させています。
展開面では、PP-OCRv6 は複数の推論バックエンドをサポートしています:Paddle Inference(デフォルト)、Hugging Face Transformers、ONNX Runtime です。ユーザーは PaddleOCR の API で簡単にバックエンドを切り替えることができます。例えば、Transformers バックエンドを使用するには engine="transformers" と設定します。また、モデルウェイトは Hugging Face Hub で safetensors、Paddle 推論モデル、ONNX 形式で公開されており、さまざまなワークフローに統合しやすくなっています。
PP-OCRv6 のリリースにより、開発者はエッジデバイスからサーバーサイドまで、単一のモデルファミリーで柔軟な多言語 OCR ソリューションを実現できます。公式オンラインデモ、モデルコレクション、詳細なドキュメントも提供されており、ユーザーは迅速に評価を開始できます。