2026-06-22 21:18 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 21:23 UTC+8

PP-OCRv6 在 Hugging Face 上：從 1.5M 到 34.5M 引數的 50 種語言 OCR

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列，支援從 1.5M 到 34.5M 引數的三個層級，覆蓋 50 種語言。相比 PP-OCRv5_server，檢測準確率提升 4.6 個百分點，識別準確率提升 5.1 個百分點。新架構包括 PPLCNetV4 骨幹網路、RepLKFPN 檢測模組和 EncoderWithLightSVTR 識別模組。支援 Paddle Inference、Transformers 和 ONNX Runtime 後端。

來源Hugging Face Blog

PP-OCRv6 是百度 PaddleOCR 團隊推出的最新通用光學字元識別（OCR）模型系列，旨在解決真實場景中的文本檢測與識別問題，包括文件、截圖、多語言影像、數碼顯示、工業標籤以及場景文字等。

該模型系列提供三個層級：tiny（1.5M 引數）、small（7.7M 引數）和 medium（34.5M 引數），分別針對不同部署需求。其中 medium 和 small 層級支援 50 種語言，包括簡體中文、繁體中文、英語、日語以及 46 種拉丁語系文字。在 PaddleOCR 官方的多場景 OCR 基準測試中，PP-OCRv6_medium 達到了 86.2% 的檢測 Hmean 和 83.2% 的識別準確率。相比上一代 PP-OCRv5_server，文本檢測提升了 4.6 個百分點，文本識別提升了 5.1 個百分點。

PP-OCRv6 在架構、訓練和資料方面進行了多項改進。它採用統一的 PPLCNetV4 骨幹網路，適用於檢測和識別兩個階段，確保了模型家族的一致性。檢測模組升級為 RepLKFPN（輕量級大核特徵金字塔網路），能夠有效處理多尺度文本，應對小、密集、旋轉、低解析度或複雜背景中的文字。識別模組則採用 EncoderWithLightSVTR，結合區域性上下文建模和全域性注意力機制，提升了難例文本的識別質量，特別適用於多語言文字、螢幕文字、工業字元、特殊符號和嘈雜區域。

在部署方面，PP-OCRv6 提供了多種推理後端：Paddle Inference（預設）、Hugging Face Transformers 和 ONNX Runtime。使用者可以透過 PaddleOCR 的 API 輕鬆切換後端。例如，使用 Transformers 後端只需設定 engine="transformers"。此外，模型權重已在 Hugging Face Hub 上以 safetensors、Paddle 推理模型和 ONNX 格式釋出，便於整合到不同工作流中。

PP-OCRv6 的釋出意味著開發者可以基於一個統一的模型家族，從邊緣裝置到伺服器端實現靈活的多語言 OCR 方案。官方還提供了線上演示、模型合集和詳細文件，方便使用者快速上手評估。