AI News HubLIVE
站内改写1 分钟阅读

Mistral OCR 4 发布:突破性的文档理解模型

Mistral OCR 4 引入了边界框、块分类和置信度分数,在人类偏好测试中优于所有竞争对手,平均胜率达72%。支持170种语言,可单容器自托管,定价为每千页4美元。

来源Hacker News AI作者: meetpateltech

Mistral AI 今日正式发布 Mistral OCR 4,这是其文档理解模型的最新版本。与前代仅输出文本和表格不同,OCR 4 返回结构化的文档表示:每个文本块都带有边界框、类型分类(如标题、表格、等式、签名等)以及逐页和逐字的置信度分数。这意味着下游系统不仅能知道文档说了什么,还能知道每个元素的位置、角色以及模型的置信度。

在基准测试中,OCR 4 表现突出。在人类偏好评估中,独立标注员在600多份涉及12种以上语言的文档中,首选 OCR 4 的比例高达72%,领先所有竞争对手。在公开的 OlmOCRBench 上,OCR 4 以85.20分位居榜首;在内部多语言评估中,它在所有8个语系(英语、西欧、东欧、中东、中文、东亚、东南亚及稀有语言)中均领先,尤其在稀有语言上优势明显。值得注意的是,团队指出当前基准测试存在标注错误、数学符号表示差异等评分缺陷,因此建议用户在自己的文档上实际评估。

OCR 4 支持170种语言,覆盖10个语系,包括许多稀有和低资源语言。模型紧凑,可在单个容器中部署,适合隐私敏感的高吞吐量场景。定价方面,API 每千页4美元,批处理仅2美元;如使用 Document AI(在 OCR 输出上叠加结构化 JSON),每千页5美元。

该模型已集成至 Mistral Search Toolkit,为检索增强生成(RAG)和企业搜索提供结构化输入。早期用户已将其用于发票结构化、档案数字化、技术报告提取等场景。Mistral 强调 OCR 4 是文档理解模型,而非决策系统,不适用于医疗诊断、法律咨询等高危领域。

开发者可通过 Mistral Studio、Amazon SageMaker、Microsoft Foundry 以及即将支持的 Snowflake Parse Document 使用 OCR 4。对于有严格数据隐私要求的组织,OCR 4 也支持完全自托管部署。新版还提供了 Document AI 选项,允许用户通过同一端点传递 JSON 模式或自定义提示,将 OCR 输出转换为特定格式的结构化数据。