Mistral OCR 4:文档智能的新一代OCR
Mistral 发布 OCR 4,提供边界框、区块分类和置信度分数,支持 170 种语言。在人类偏好评估中表现优于所有竞品,在公开基准测试中取得最高分,但存在评分局限性。定价为每千页 4 美元,可自托管。
Mistral 今日正式发布 Mistral OCR 4,这是其文档理解模型的最新迭代。与仅提取文本的传统 OCR 不同,OCR 4 返回丰富的结构化输出,包括每个文本块的边界框、区块类型(如标题、表格、公式、签名等)以及逐页、逐词的置信度分数。这使得下游系统不仅知道文档内容,还能了解每个元素的位置、角色以及模型的置信程度,为检索增强生成(RAG)、智能代理和工作流自动化提供了更可靠的输入。
OCR 4 在性能上实现了突破。在涉及 600 多份文档、12 种语言的人类偏好对比评估中,独立标注者优先选择 OCR 4 的比率平均达到 72%,领先于所有被测试的领先 OCR 和文档 AI 系统。在公开基准测试 OlmOCRBench 上,OCR 4 取得了 85.20 的最高分;内部多语言评估中,其得分高达 0.98,在英语、西欧、东欧、中东、中文、东亚、东南亚及稀有语言等所有语系中均位居榜首。不过,公司也坦诚指出了基准测试的局限性:许多所谓的“错误”实际上是评分机制的伪影,例如参考标注本身的错误、等价数学符号的字符串误判、多栏阅读顺序的假设偏差等。因此,建议用户在自己的文档上进行评估。
在功能覆盖方面,OCR 4 支持 170 种语言,覆盖 10 个语系,尤其擅长处理稀有和低资源语言(如印地语、日语、格鲁吉亚语、孟加拉语、亚美尼亚语等),这些语言在许多竞品系统中性能会大幅下降。该模型可接受 PDF、DOC、PPT 和 OpenDocument 等常见企业格式,并且设计紧凑,仅需一个容器即可部署,支持完全自托管,满足数据驻留和主权要求。通过 Batch API,用户还可以实现高效的高吞吐量批处理。
定价方面,OCR 4 的 API 价格为每千页 4 美元,Batch API 享受 50% 折扣,降至每千页 2 美元。对于需要结构化输出的用户,Document AI(基于 OCR 4)每千页收费 5 美元,支持传入 JSON schema 以自动生成符合规范的结构化数据,并可选配自定义提示和图像注释。
OCR 4 现已通过 Mistral Studio、Amazon SageMaker、Microsoft Foundry 等平台提供 API 访问,即将登陆 Snowflake Parse Document。对于有严格数据隐私要求的组织,OCR 4 还提供自托管选项。微软 AI 生态系统合作伙伴副总裁 Kimmi Grewal 表示:“Mistral Document AI 与 OCR 4 在 Microsoft Foundry 中的可用性标志着我们合作的一个重要里程碑。”早期用户已将 OCR 4 用于发票结构化、公司档案数字化、技术报告文本提取以及企业搜索等场景。
Mistral 强调,OCR 4 是一个文档理解模型,而非决策引擎,不应用于医疗诊断、法律建议、高风险金融决策或安全关键系统。开发者可根据需求选择纯提取模式或启用 Document AI 功能,以在原始 OCR 结果之上叠加结构化层。