Mistral OCR 4:为RAG、代理和企业搜索管道提供可引用的结构化输出
Mistral AI 发布了 OCR 4,从纯文本提取转向结构化文档输出。每个块返回边界框、类型分类以及每页和每词的置信度分数。该模型支持170种语言,可在单个自托管容器中运行,并通过一个API端点将可引用的输入提供给RAG、代理和企业搜索管道。
今天,Mistral AI 发布了其最新的文档理解模型 OCR 4。这一新版本在提取文本的基础上,增加了边界框、块分类和行内置信度分数。它支持跨越10个语系的170种语言,并可在单个容器中运行,实现完全自托管部署。OCR 4 还作为企业搜索、RAG 和特定领域检索管道的摄入组件。
TL;DR
- OCR 4 返回边界框、有类型标签的块和每词置信度分数,而不仅仅是文本。
- 支持10个语系的170种语言,在稀有和低资源语言上表现更佳。
- 独立标注者偏好 OCR 4 超过所有测试系统,平均胜率达72%。
- 定价为每1000页4美元,使用批量API折扣可降至2美元。
- 一个端点同时提供原始提取和基于模式的文档AI输出。
Mistral OCR 4
Mistral OCR 4 从各种文档中提取和结构化内容。之前的版本专注于将页面转换为干净的文本和表格。而 OCR 4 则返回整个文档的结构化表示。
每个块都通过边界框定位并按类型分类。块类型包括标题、表格、方程式、签名等。每页和每词生成行内置信度分数。
因此,下游系统不仅了解文档说了什么,还知道每个元素的位置、扮演的角色以及模型的置信度。这种额外的上下文对于引用、编辑和人在循环验证至关重要。
OCR 4 支持常见的企业格式,包括 PDF、DOC、PPT 和 OpenDocument。该模型足够紧凑,可以在单个容器中部署。企业客户可以自管理部署以满足数据驻留和合规性要求。
基准测试
Mistral 将 OCR 4 与AI原生OCR模型、前沿通用模型、企业文档服务和Mistral OCR 3进行了比较。
许多独立标注者偏好 OCR 4 超过所有领先系统。平均胜率达72%。评估使用了来自第三方供应商的600多份文档,跨越12多种语言。标注者逐文档对每个竞争者的输出与 OCR 4 的输出进行排名。
在自动化基准测试中,OCR 4 在公开的 OlmOCRBench 上得分为85.20,在 OmniDocBench 上得分为93.07,在 Mistral 内部 Crawl Multilingual 评估中得分为0.98。
两个客户数据点提供了背景。Rogo 报告称,与领先的代理解析器相比,等效准确性下成本降低约8倍,延迟降低17倍。Anaqua 测量到每页速度比其现有供应商快约4倍。
不仅仅是文本:分割
边界框是 Mistral 最常要求的功能。它们定位文本以实现上下文内高亮和可靠的数据管道。
块类型和置信度分数用于不同的任务。它们驱动基于源的引用、编辑和人在循环验证。这种结构支持多种下游工作负载。
干净、分类的块成为 RAG 更好的检索单元。代理获得结构原语来操作文档,而不仅仅阅读它们。连接器接收一致、类型化的输出用于摄入和索引。
OCR 4 也是 Mistral 搜索工具包(现公开预览版)的摄入组件。搜索工具包是 Mistral 的开源、可组合搜索框架。其结构化输出为检索和评估工作流提供可引用的输入。
使用案例示例
OCR 4 支持高容量管道和交互式文档工作流。
- 文档解析和提取:将多语言合同转换为干净的、结构化的 Markdown 用于索引。
- 检索增强生成(RAG):将分类块输入搜索工具包,以获得有引用依据的答案。
- 代理工作流:为发票处理代理提供类型化字段和边界框以自动填写表单。
- 置信度门控管道:将低置信度区域路由给人工验证者,自动批准其余部分。
- 企业搜索:使用 OCR 4 作为数据源组件进行摄入和实体提取。
早期用户应用 OCR 4 将发票转换为结构化字段并数字化公司档案。其他人从技术报告中提取干净文本或支持企业搜索。
Mistral 官方发布说明指出范围:OCR 4 是一个文档理解模型,而不是决策者。它不适用于医疗诊断、法律判断或高风险的财务决策。它也不适用于安全关键系统、实时处理或非文档输入(如原始音频或视频)。
比较:纯提取与文档AI
OCR 4 通过单个API端点提供。每个请求运行相同的模型。它始终返回提取的内容、边界框、块类型、置信度分数和 Markdown。区别在于你在此基础上叠加多少。
| 能力 | 纯提取模式 | 文档AI模式(同一端点) | |------|------------|------------------------| | 输出 | Markdown、边界框、块类型、置信度 | 按你定义的模式的结构化JSON | | 工作原理 | 原始OCR响应 | OCR输出馈入 mistral-small-2603 | | 图像标注 | 不应用 | 每图像按模式进行视觉-语言调用 | | 自定义提示 | 无 | 是,指导解释或摘要 | | 最佳用途 | 管道、代理、批量摄入 | 业务用户、试点、无需解析逻辑 | | 价格 | 每1000页4美元(批量2美元) | 每1000页5美元 | | 自托管 | 企业可用 | 企业可用 |
决策规则很简单。需要原始提取内容?直接使用OCR 4。需要将输出重塑为模式或添加领域字段?在同一调用中添加文档AI参数。
使用API
基本提取需要文档URL并返回结构化页面。设置 include_blocks=True 以获取类型化块和边界框。
import os
from mistralai.client import Mistral
client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"
},
include_blocks=True, # 类型化块 + 边界框
table_format="html", # None(内联)、"markdown" 或 "html"
include_image_base64=True
)响应是一个包含 pages 数组的JSON对象。每页包含 Markdown、图像、表格、超链接、尺寸和 confidence_scores。要门控人工审核管道,请求每词置信度。
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"},
confidence_scores_granularity="word" # 或 "page" 获取聚合
)"word" 设置会在每页和每表格条目中添加 word_confidence_scores 数组。对于高容量任务,Mistral 推荐使用批量推理服务,该服务可将每页成本减半。
交互式输出浏览器
下方嵌入可视化 OCR 4 的结构化输出。在示例文档间切换,切换边界框和块类型,并打开置信度热力图。Markdown 和 JSON 选项卡并排显示两种输出形状。示例数据仅供说明,非实时API调用。
查看 Mistral OCR 4 公告、OCR 4 模型卡和 OCR 处理器文档。另外,欢迎在 Twitter 上关注我们,并加入我们的 150k+ML SubReddit 和订阅我们的新闻通讯。等等,你在使用 Telegram 吗?现在你也可以在 Telegram 上加入我们。
需要与我们合作推广你的 GitHub 仓库、Hugging Face 页面、产品发布或网络研讨会等吗?请联系我们。
来源:Mistral OCR 4 公告、OCR 4 模型卡、OCR 处理器文档。
此文章最初出现在 MarkTechPost 上。