2026-06-23 22:03 UTC+8站内改写1 分钟阅读更新: 2026-06-23 22:06 UTC+8

Mistral OCR 4 发布：突破性的文档理解模型

Mistral OCR 4 引入了边界框、块分类和置信度分数，在人类偏好测试中优于所有竞争对手，平均胜率达72%。支持170种语言，可单容器自托管，定价为每千页4美元。

来源Hacker News AI作者: meetpateltech

Mistral AI 今日正式发布 Mistral OCR 4，这是其文档理解模型的最新版本。与前代仅输出文本和表格不同，OCR 4 返回结构化的文档表示：每个文本块都带有边界框、类型分类（如标题、表格、等式、签名等）以及逐页和逐字的置信度分数。这意味着下游系统不仅能知道文档说了什么，还能知道每个元素的位置、角色以及模型的置信度。

在基准测试中，OCR 4 表现突出。在人类偏好评估中，独立标注员在600多份涉及12种以上语言的文档中，首选 OCR 4 的比例高达72%，领先所有竞争对手。在公开的 OlmOCRBench 上，OCR 4 以85.20分位居榜首；在内部多语言评估中，它在所有8个语系（英语、西欧、东欧、中东、中文、东亚、东南亚及稀有语言）中均领先，尤其在稀有语言上优势明显。值得注意的是，团队指出当前基准测试存在标注错误、数学符号表示差异等评分缺陷，因此建议用户在自己的文档上实际评估。

OCR 4 支持170种语言，覆盖10个语系，包括许多稀有和低资源语言。模型紧凑，可在单个容器中部署，适合隐私敏感的高吞吐量场景。定价方面，API 每千页4美元，批处理仅2美元；如使用 Document AI（在 OCR 输出上叠加结构化 JSON），每千页5美元。

该模型已集成至 Mistral Search Toolkit，为检索增强生成（RAG）和企业搜索提供结构化输入。早期用户已将其用于发票结构化、档案数字化、技术报告提取等场景。Mistral 强调 OCR 4 是文档理解模型，而非决策系统，不适用于医疗诊断、法律咨询等高危领域。

开发者可通过 Mistral Studio、Amazon SageMaker、Microsoft Foundry 以及即将支持的 Snowflake Parse Document 使用 OCR 4。对于有严格数据隐私要求的组织，OCR 4 也支持完全自托管部署。新版还提供了 Document AI 选项，允许用户通过同一端点传递 JSON 模式或自定义提示，将 OCR 输出转换为特定格式的结构化数据。