PP-OCRv6 在 Hugging Face 上:從 1.5M 到 34.5M 引數的 50 種語言 OCR
PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列,支援從 1.5M 到 34.5M 引數的三個層級,覆蓋 50 種語言。相比 PP-OCRv5_server,檢測準確率提升 4.6 個百分點,識別準確率提升 5.1 個百分點。新架構包括 PPLCNetV4 骨幹網路、RepLKFPN 檢測模組和 EncoderWithLightSVTR 識別模組。支援 Paddle Inference、Transformers 和 ONNX Runtime 後端。
PP-OCRv6 是百度 PaddleOCR 團隊推出的最新通用光學字元識別(OCR)模型系列,旨在解決真實場景中的文本檢測與識別問題,包括文件、截圖、多語言影像、數碼顯示、工業標籤以及場景文字等。
該模型系列提供三個層級:tiny(1.5M 引數)、small(7.7M 引數)和 medium(34.5M 引數),分別針對不同部署需求。其中 medium 和 small 層級支援 50 種語言,包括簡體中文、繁體中文、英語、日語以及 46 種拉丁語系文字。在 PaddleOCR 官方的多場景 OCR 基準測試中,PP-OCRv6_medium 達到了 86.2% 的檢測 Hmean 和 83.2% 的識別準確率。相比上一代 PP-OCRv5_server,文本檢測提升了 4.6 個百分點,文本識別提升了 5.1 個百分點。
PP-OCRv6 在架構、訓練和資料方面進行了多項改進。它採用統一的 PPLCNetV4 骨幹網路,適用於檢測和識別兩個階段,確保了模型家族的一致性。檢測模組升級為 RepLKFPN(輕量級大核特徵金字塔網路),能夠有效處理多尺度文本,應對小、密集、旋轉、低解析度或複雜背景中的文字。識別模組則採用 EncoderWithLightSVTR,結合區域性上下文建模和全域性注意力機制,提升了難例文本的識別質量,特別適用於多語言文字、螢幕文字、工業字元、特殊符號和嘈雜區域。
在部署方面,PP-OCRv6 提供了多種推理後端:Paddle Inference(預設)、Hugging Face Transformers 和 ONNX Runtime。使用者可以透過 PaddleOCR 的 API 輕鬆切換後端。例如,使用 Transformers 後端只需設定 engine="transformers"。此外,模型權重已在 Hugging Face Hub 上以 safetensors、Paddle 推理模型和 ONNX 格式釋出,便於整合到不同工作流中。
PP-OCRv6 的釋出意味著開發者可以基於一個統一的模型家族,從邊緣裝置到伺服器端實現靈活的多語言 OCR 方案。官方還提供了線上演示、模型合集和詳細文件,方便使用者快速上手評估。