2026-06-23 22:21 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Mistral OCR 4：文档智能的新一代OCR

Mistral 发布 OCR 4，提供边界框、区块分类和置信度分数，支持 170 种语言。在人类偏好评估中表现优于所有竞品，在公开基准测试中取得最高分，但存在评分局限性。定价为每千页 4 美元，可自托管。

Mistral 今日正式发布 Mistral OCR 4，这是其文档理解模型的最新迭代。与仅提取文本的传统 OCR 不同，OCR 4 返回丰富的结构化输出，包括每个文本块的边界框、区块类型（如标题、表格、公式、签名等）以及逐页、逐词的置信度分数。这使得下游系统不仅知道文档内容，还能了解每个元素的位置、角色以及模型的置信程度，为检索增强生成（RAG）、智能代理和工作流自动化提供了更可靠的输入。

OCR 4 在性能上实现了突破。在涉及 600 多份文档、12 种语言的人类偏好对比评估中，独立标注者优先选择 OCR 4 的比率平均达到 72%，领先于所有被测试的领先 OCR 和文档 AI 系统。在公开基准测试 OlmOCRBench 上，OCR 4 取得了 85.20 的最高分；内部多语言评估中，其得分高达 0.98，在英语、西欧、东欧、中东、中文、东亚、东南亚及稀有语言等所有语系中均位居榜首。不过，公司也坦诚指出了基准测试的局限性：许多所谓的“错误”实际上是评分机制的伪影，例如参考标注本身的错误、等价数学符号的字符串误判、多栏阅读顺序的假设偏差等。因此，建议用户在自己的文档上进行评估。

在功能覆盖方面，OCR 4 支持 170 种语言，覆盖 10 个语系，尤其擅长处理稀有和低资源语言（如印地语、日语、格鲁吉亚语、孟加拉语、亚美尼亚语等），这些语言在许多竞品系统中性能会大幅下降。该模型可接受 PDF、DOC、PPT 和 OpenDocument 等常见企业格式，并且设计紧凑，仅需一个容器即可部署，支持完全自托管，满足数据驻留和主权要求。通过 Batch API，用户还可以实现高效的高吞吐量批处理。

定价方面，OCR 4 的 API 价格为每千页 4 美元，Batch API 享受 50% 折扣，降至每千页 2 美元。对于需要结构化输出的用户，Document AI（基于 OCR 4）每千页收费 5 美元，支持传入 JSON schema 以自动生成符合规范的结构化数据，并可选配自定义提示和图像注释。

OCR 4 现已通过 Mistral Studio、Amazon SageMaker、Microsoft Foundry 等平台提供 API 访问，即将登陆 Snowflake Parse Document。对于有严格数据隐私要求的组织，OCR 4 还提供自托管选项。微软 AI 生态系统合作伙伴副总裁 Kimmi Grewal 表示：“Mistral Document AI 与 OCR 4 在 Microsoft Foundry 中的可用性标志着我们合作的一个重要里程碑。”早期用户已将 OCR 4 用于发票结构化、公司档案数字化、技术报告文本提取以及企业搜索等场景。

Mistral 强调，OCR 4 是一个文档理解模型，而非决策引擎，不应用于医疗诊断、法律建议、高风险金融决策或安全关键系统。开发者可根据需求选择纯提取模式或启用 Document AI 功能，以在原始 OCR 结果之上叠加结构化层。