PP-OCRv6 在 Hugging Face 上:從 1.5M 到 34.5M 參數的 50 種語言 OCR
PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列,支持從 1.5M 到 34.5M 參數的三個層級,覆蓋 50 種語言。相比 PP-OCRv5_server,檢測準確率提升 4.6 個百分點,識別準確率提升 5.1 個百分點。新架構包括 PPLCNetV4 骨幹網絡、RepLKFPN 檢測模塊和 EncoderWithLightSVTR 識別模塊。支持 Paddle Inference、Transformers 和 ONNX Runtime 後端。
PP-OCRv6 是百度 PaddleOCR 團隊推出的最新通用光學字符識別(OCR)模型系列,旨在解決真實場景中的文本檢測與識別問題,包括文檔、截圖、多語言圖像、數碼顯示、工業標籤以及場景文字等。
該模型系列提供三個層級:tiny(1.5M 參數)、small(7.7M 參數)和 medium(34.5M 參數),分別針對不同部署需求。其中 medium 和 small 層級支持 50 種語言,包括簡體中文、繁體中文、英語、日語以及 46 種拉丁語系文字。在 PaddleOCR 官方的多場景 OCR 基準測試中,PP-OCRv6_medium 達到了 86.2% 的檢測 Hmean 和 83.2% 的識別準確率。相比上一代 PP-OCRv5_server,文本檢測提升了 4.6 個百分點,文本識別提升了 5.1 個百分點。
PP-OCRv6 在架構、訓練和數據方面進行了多項改進。它採用統一的 PPLCNetV4 骨幹網絡,適用於檢測和識別兩個階段,確保了模型家族的一致性。檢測模塊升級為 RepLKFPN(輕量級大核特徵金字塔網絡),能夠有效處理多尺度文本,應對小、密集、旋轉、低分辨率或複雜背景中的文字。識別模塊則採用 EncoderWithLightSVTR,結合局部上下文建模和全局注意力機制,提升了難例文本的識別質量,特別適用於多語言文字、屏幕文字、工業字符、特殊符號和嘈雜區域。
在部署方面,PP-OCRv6 提供了多種推理後端:Paddle Inference(默認)、Hugging Face Transformers 和 ONNX Runtime。用户可以通過 PaddleOCR 的 API 輕鬆切換後端。例如,使用 Transformers 後端只需設置 engine="transformers"。此外,模型權重已在 Hugging Face Hub 上以 safetensors、Paddle 推理模型和 ONNX 格式發佈,便於集成到不同工作流中。
PP-OCRv6 的發佈意味着開發者可以基於一個統一的模型家族,從邊緣設備到服務器端實現靈活的多語言 OCR 方案。官方還提供了在線演示、模型合集和詳細文檔,方便用户快速上手評估。