PP-OCRv6 在 Hugging Face 上:从 1.5M 到 34.5M 参数的 50 种语言 OCR
PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列,支持从 1.5M 到 34.5M 参数的三个层级,覆盖 50 种语言。相比 PP-OCRv5_server,检测准确率提升 4.6 个百分点,识别准确率提升 5.1 个百分点。新架构包括 PPLCNetV4 骨干网络、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块。支持 Paddle Inference、Transformers 和 ONNX Runtime 后端。
PP-OCRv6 是百度 PaddleOCR 团队推出的最新通用光学字符识别(OCR)模型系列,旨在解决真实场景中的文本检测与识别问题,包括文档、截图、多语言图像、数码显示、工业标签以及场景文字等。
该模型系列提供三个层级:tiny(1.5M 参数)、small(7.7M 参数)和 medium(34.5M 参数),分别针对不同部署需求。其中 medium 和 small 层级支持 50 种语言,包括简体中文、繁体中文、英语、日语以及 46 种拉丁语系文字。在 PaddleOCR 官方的多场景 OCR 基准测试中,PP-OCRv6_medium 达到了 86.2% 的检测 Hmean 和 83.2% 的识别准确率。相比上一代 PP-OCRv5_server,文本检测提升了 4.6 个百分点,文本识别提升了 5.1 个百分点。
PP-OCRv6 在架构、训练和数据方面进行了多项改进。它采用统一的 PPLCNetV4 骨干网络,适用于检测和识别两个阶段,确保了模型家族的一致性。检测模块升级为 RepLKFPN(轻量级大核特征金字塔网络),能够有效处理多尺度文本,应对小、密集、旋转、低分辨率或复杂背景中的文字。识别模块则采用 EncoderWithLightSVTR,结合局部上下文建模和全局注意力机制,提升了难例文本的识别质量,特别适用于多语言文字、屏幕文字、工业字符、特殊符号和嘈杂区域。
在部署方面,PP-OCRv6 提供了多种推理后端:Paddle Inference(默认)、Hugging Face Transformers 和 ONNX Runtime。用户可以通过 PaddleOCR 的 API 轻松切换后端。例如,使用 Transformers 后端只需设置 engine="transformers"。此外,模型权重已在 Hugging Face Hub 上以 safetensors、Paddle 推理模型和 ONNX 格式发布,便于集成到不同工作流中。
PP-OCRv6 的发布意味着开发者可以基于一个统一的模型家族,从边缘设备到服务器端实现灵活的多语言 OCR 方案。官方还提供了在线演示、模型合集和详细文档,方便用户快速上手评估。