2026-06-24 07:43 UTC+8站内改写4 分钟阅读更新: 2026-06-24 08:10 UTC+8

Mistral OCR 4：为RAG、代理和企业搜索管道提供可引用的结构化输出

Mistral AI 发布了 OCR 4，从纯文本提取转向结构化文档输出。每个块返回边界框、类型分类以及每页和每词的置信度分数。该模型支持170种语言，可在单个自托管容器中运行，并通过一个API端点将可引用的输入提供给RAG、代理和企业搜索管道。

来源MarkTechPost作者: Asif Razzaq

今天，Mistral AI 发布了其最新的文档理解模型 OCR 4。这一新版本在提取文本的基础上，增加了边界框、块分类和行内置信度分数。它支持跨越10个语系的170种语言，并可在单个容器中运行，实现完全自托管部署。OCR 4 还作为企业搜索、RAG 和特定领域检索管道的摄入组件。

TL;DR

OCR 4 返回边界框、有类型标签的块和每词置信度分数，而不仅仅是文本。
支持10个语系的170种语言，在稀有和低资源语言上表现更佳。
独立标注者偏好 OCR 4 超过所有测试系统，平均胜率达72%。
定价为每1000页4美元，使用批量API折扣可降至2美元。
一个端点同时提供原始提取和基于模式的文档AI输出。

Mistral OCR 4

Mistral OCR 4 从各种文档中提取和结构化内容。之前的版本专注于将页面转换为干净的文本和表格。而 OCR 4 则返回整个文档的结构化表示。

每个块都通过边界框定位并按类型分类。块类型包括标题、表格、方程式、签名等。每页和每词生成行内置信度分数。

因此，下游系统不仅了解文档说了什么，还知道每个元素的位置、扮演的角色以及模型的置信度。这种额外的上下文对于引用、编辑和人在循环验证至关重要。

OCR 4 支持常见的企业格式，包括 PDF、DOC、PPT 和 OpenDocument。该模型足够紧凑，可以在单个容器中部署。企业客户可以自管理部署以满足数据驻留和合规性要求。

基准测试

Mistral 将 OCR 4 与AI原生OCR模型、前沿通用模型、企业文档服务和Mistral OCR 3进行了比较。

许多独立标注者偏好 OCR 4 超过所有领先系统。平均胜率达72%。评估使用了来自第三方供应商的600多份文档，跨越12多种语言。标注者逐文档对每个竞争者的输出与 OCR 4 的输出进行排名。

在自动化基准测试中，OCR 4 在公开的 OlmOCRBench 上得分为85.20，在 OmniDocBench 上得分为93.07，在 Mistral 内部 Crawl Multilingual 评估中得分为0.98。

两个客户数据点提供了背景。Rogo 报告称，与领先的代理解析器相比，等效准确性下成本降低约8倍，延迟降低17倍。Anaqua 测量到每页速度比其现有供应商快约4倍。

不仅仅是文本：分割

边界框是 Mistral 最常要求的功能。它们定位文本以实现上下文内高亮和可靠的数据管道。

块类型和置信度分数用于不同的任务。它们驱动基于源的引用、编辑和人在循环验证。这种结构支持多种下游工作负载。

干净、分类的块成为 RAG 更好的检索单元。代理获得结构原语来操作文档，而不仅仅阅读它们。连接器接收一致、类型化的输出用于摄入和索引。

OCR 4 也是 Mistral 搜索工具包（现公开预览版）的摄入组件。搜索工具包是 Mistral 的开源、可组合搜索框架。其结构化输出为检索和评估工作流提供可引用的输入。

使用案例示例

OCR 4 支持高容量管道和交互式文档工作流。

文档解析和提取：将多语言合同转换为干净的、结构化的 Markdown 用于索引。
检索增强生成（RAG）：将分类块输入搜索工具包，以获得有引用依据的答案。
代理工作流：为发票处理代理提供类型化字段和边界框以自动填写表单。
置信度门控管道：将低置信度区域路由给人工验证者，自动批准其余部分。
企业搜索：使用 OCR 4 作为数据源组件进行摄入和实体提取。

早期用户应用 OCR 4 将发票转换为结构化字段并数字化公司档案。其他人从技术报告中提取干净文本或支持企业搜索。

Mistral 官方发布说明指出范围：OCR 4 是一个文档理解模型，而不是决策者。它不适用于医疗诊断、法律判断或高风险的财务决策。它也不适用于安全关键系统、实时处理或非文档输入（如原始音频或视频）。

比较：纯提取与文档AI

OCR 4 通过单个API端点提供。每个请求运行相同的模型。它始终返回提取的内容、边界框、块类型、置信度分数和 Markdown。区别在于你在此基础上叠加多少。

| 能力 | 纯提取模式 | 文档AI模式（同一端点） | |------|------------|------------------------| | 输出 | Markdown、边界框、块类型、置信度 | 按你定义的模式的结构化JSON | | 工作原理 | 原始OCR响应 | OCR输出馈入 mistral-small-2603 | | 图像标注 | 不应用 | 每图像按模式进行视觉-语言调用 | | 自定义提示 | 无 | 是，指导解释或摘要 | | 最佳用途 | 管道、代理、批量摄入 | 业务用户、试点、无需解析逻辑 | | 价格 | 每1000页4美元（批量2美元） | 每1000页5美元 | | 自托管 | 企业可用 | 企业可用 |

决策规则很简单。需要原始提取内容？直接使用OCR 4。需要将输出重塑为模式或添加领域字段？在同一调用中添加文档AI参数。

使用API

基本提取需要文档URL并返回结构化页面。设置 include_blocks=True 以获取类型化块和边界框。

import os
from mistralai.client import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_url",
        "document_url": "https://arxiv.org/pdf/2201.04234"
    },
    include_blocks=True,  # 类型化块 + 边界框
    table_format="html",  # None（内联）、"markdown" 或 "html"
    include_image_base64=True
)

响应是一个包含 pages 数组的JSON对象。每页包含 Markdown、图像、表格、超链接、尺寸和 confidence_scores。要门控人工审核管道，请求每词置信度。

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={"type": "document_url",
               "document_url": "https://arxiv.org/pdf/2201.04234"},
    confidence_scores_granularity="word"  # 或 "page" 获取聚合
)

"word" 设置会在每页和每表格条目中添加 word_confidence_scores 数组。对于高容量任务，Mistral 推荐使用批量推理服务，该服务可将每页成本减半。

交互式输出浏览器

下方嵌入可视化 OCR 4 的结构化输出。在示例文档间切换，切换边界框和块类型，并打开置信度热力图。Markdown 和 JSON 选项卡并排显示两种输出形状。示例数据仅供说明，非实时API调用。

查看 Mistral OCR 4 公告、OCR 4 模型卡和 OCR 处理器文档。另外，欢迎在 Twitter 上关注我们，并加入我们的 150k+ML SubReddit 和订阅我们的新闻通讯。等等，你在使用 Telegram 吗？现在你也可以在 Telegram 上加入我们。

需要与我们合作推广你的 GitHub 仓库、Hugging Face 页面、产品发布或网络研讨会等吗？请联系我们。

来源：Mistral OCR 4 公告、OCR 4 模型卡、OCR 处理器文档。

此文章最初出现在 MarkTechPost 上。