2026-05-15 10:35 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

KYC中的OCR：为什么标准文本提取不够用

本文探讨了标准OCR技术在KYC（了解你的客户）工作流程中的不足，包括对复杂证件、安全特征和多语言支持的局限性。介绍了代理型OCR（如LlamaParse）如何通过布局感知分割、模型编排和自纠错循环来提高准确率，并分析了银行业、保险业和加密货币交易所中的应用与合规需求。

来源LlamaIndex Blog

在KYC（了解你的客户）工作流程中，光学字符识别（OCR）是将身份证件图像转换为结构化数据的关键步骤。然而，标准OCR技术最初是为干净、打印在白色纸张上的文本设计的，这与真实身份证件相去甚远。真实的证件可能磨损、在倾斜角度下拍摄、覆盖安全全息图，并且包含非拉丁文字符，这些都会导致标准OCR引擎出错。反洗钱（AML）法规没有容错条款，一个错误的字段可能引发假阳性警报、拒绝合法客户，甚至让欺诈者通过验证。金融机构在标准OCR的基础上构建了昂贵的文档验证系统，但这些系统难以可靠处理现实中的证件。

标准OCR的局限性源于其架构：它对所有文档元素应用同一模型，而不理解文档结构。例如，护照的机读区（MRZ）需要专门的解析器来验证校验和，但标准OCR仅提取字符而忽略结构。身份证明文件种类繁多——护照、驾照、国民身份证、水电费账单——每种都有不同的布局和安全特征。机器学习的改进虽然提高了基线准确率，但未能解决架构问题，新文档类型仍需重新训练。

代理型OCR（如LlamaParse）采用不同的方法。它首先通过布局感知的计算机视觉分割文档，识别MRZ区域、照片字段、地址块和签发机构印章，然后为每个元素选择最合适的模型。例如，MRZ专用解析器验证校验和，视觉模型处理印章和手写内容，结构化提取器处理表格数据。这种编排方式使系统能适应新证件设计，无需重新训练。此外，自纠错循环可捕获常见幻觉模式，在数据进入合规系统之前标记错误。

对于合规团队，置信度分数和来源引用使人工审核（HITL）更有针对性，仅需检查低置信度的特定字段，而非整份文档。这显著提高了直通处理率，将人工审核保留给真正的边缘案例。

在银行业和金融科技领域，远程开户完全依赖身份验证的可靠性。BSA/AML合规要求提取数据准确输入筛查系统。保险和医疗行业则涉及HIPAA合规，错误可能导致患者安全风险。加密货币交易所面临全球用户和不同国家的KYC门槛，提取误差会传播到AML筛查中。随着FATF指南、欧盟AMLA和FinCEN受益所有权要求收紧，合规基线持续提升，代理型OCR成为了应对这些压力的解决方案。