2026-06-22 21:18 UTC+8站内改写1 分钟阅读更新: 2026-06-22 21:23 UTC+8

PP-OCRv6 在 Hugging Face 上：从 1.5M 到 34.5M 参数的 50 种语言 OCR

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列，支持从 1.5M 到 34.5M 参数的三个层级，覆盖 50 种语言。相比 PP-OCRv5_server，检测准确率提升 4.6 个百分点，识别准确率提升 5.1 个百分点。新架构包括 PPLCNetV4 骨干网络、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块。支持 Paddle Inference、Transformers 和 ONNX Runtime 后端。

来源Hugging Face Blog

PP-OCRv6 是百度 PaddleOCR 团队推出的最新通用光学字符识别（OCR）模型系列，旨在解决真实场景中的文本检测与识别问题，包括文档、截图、多语言图像、数码显示、工业标签以及场景文字等。

该模型系列提供三个层级：tiny（1.5M 参数）、small（7.7M 参数）和 medium（34.5M 参数），分别针对不同部署需求。其中 medium 和 small 层级支持 50 种语言，包括简体中文、繁体中文、英语、日语以及 46 种拉丁语系文字。在 PaddleOCR 官方的多场景 OCR 基准测试中，PP-OCRv6_medium 达到了 86.2% 的检测 Hmean 和 83.2% 的识别准确率。相比上一代 PP-OCRv5_server，文本检测提升了 4.6 个百分点，文本识别提升了 5.1 个百分点。

PP-OCRv6 在架构、训练和数据方面进行了多项改进。它采用统一的 PPLCNetV4 骨干网络，适用于检测和识别两个阶段，确保了模型家族的一致性。检测模块升级为 RepLKFPN（轻量级大核特征金字塔网络），能够有效处理多尺度文本，应对小、密集、旋转、低分辨率或复杂背景中的文字。识别模块则采用 EncoderWithLightSVTR，结合局部上下文建模和全局注意力机制，提升了难例文本的识别质量，特别适用于多语言文字、屏幕文字、工业字符、特殊符号和嘈杂区域。

在部署方面，PP-OCRv6 提供了多种推理后端：Paddle Inference（默认）、Hugging Face Transformers 和 ONNX Runtime。用户可以通过 PaddleOCR 的 API 轻松切换后端。例如，使用 Transformers 后端只需设置 engine="transformers"。此外，模型权重已在 Hugging Face Hub 上以 safetensors、Paddle 推理模型和 ONNX 格式发布，便于集成到不同工作流中。

PP-OCRv6 的发布意味着开发者可以基于一个统一的模型家族，从边缘设备到服务器端实现灵活的多语言 OCR 方案。官方还提供了在线演示、模型合集和详细文档，方便用户快速上手评估。