2026-06-22 21:18 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 21:23 UTC+8

PP-OCRv6 在 Hugging Face 上：從 1.5M 到 34.5M 參數的 50 種語言 OCR

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列，支持從 1.5M 到 34.5M 參數的三個層級，覆蓋 50 種語言。相比 PP-OCRv5_server，檢測準確率提升 4.6 個百分點，識別準確率提升 5.1 個百分點。新架構包括 PPLCNetV4 骨幹網絡、RepLKFPN 檢測模塊和 EncoderWithLightSVTR 識別模塊。支持 Paddle Inference、Transformers 和 ONNX Runtime 後端。

來源Hugging Face Blog

PP-OCRv6 是百度 PaddleOCR 團隊推出的最新通用光學字符識別（OCR）模型系列，旨在解決真實場景中的文本檢測與識別問題，包括文檔、截圖、多語言圖像、數碼顯示、工業標籤以及場景文字等。

該模型系列提供三個層級：tiny（1.5M 參數）、small（7.7M 參數）和 medium（34.5M 參數），分別針對不同部署需求。其中 medium 和 small 層級支持 50 種語言，包括簡體中文、繁體中文、英語、日語以及 46 種拉丁語系文字。在 PaddleOCR 官方的多場景 OCR 基準測試中，PP-OCRv6_medium 達到了 86.2% 的檢測 Hmean 和 83.2% 的識別準確率。相比上一代 PP-OCRv5_server，文本檢測提升了 4.6 個百分點，文本識別提升了 5.1 個百分點。

PP-OCRv6 在架構、訓練和數據方面進行了多項改進。它採用統一的 PPLCNetV4 骨幹網絡，適用於檢測和識別兩個階段，確保了模型家族的一致性。檢測模塊升級為 RepLKFPN（輕量級大核特徵金字塔網絡），能夠有效處理多尺度文本，應對小、密集、旋轉、低分辨率或複雜背景中的文字。識別模塊則採用 EncoderWithLightSVTR，結合局部上下文建模和全局注意力機制，提升了難例文本的識別質量，特別適用於多語言文字、屏幕文字、工業字符、特殊符號和嘈雜區域。

在部署方面，PP-OCRv6 提供了多種推理後端：Paddle Inference（默認）、Hugging Face Transformers 和 ONNX Runtime。用户可以通過 PaddleOCR 的 API 輕鬆切換後端。例如，使用 Transformers 後端只需設置 engine="transformers"。此外，模型權重已在 Hugging Face Hub 上以 safetensors、Paddle 推理模型和 ONNX 格式發佈，便於集成到不同工作流中。

PP-OCRv6 的發佈意味着開發者可以基於一個統一的模型家族，從邊緣設備到服務器端實現靈活的多語言 OCR 方案。官方還提供了在線演示、模型合集和詳細文檔，方便用户快速上手評估。