2026-06-24 07:43 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-24 08:10 UTC+8

Mistral OCR 4：為RAG、代理和企業搜索管道提供可引用的結構化輸出

Mistral AI 發佈了 OCR 4，從純文本提取轉向結構化文檔輸出。每個塊返回邊界框、類型分類以及每頁和每詞的置信度分數。該模型支持170種語言，可在單個自託管容器中運行，並通過一個API端點將可引用的輸入提供給RAG、代理和企業搜索管道。

來源MarkTechPost作者: Asif Razzaq

今天，Mistral AI 發佈了其最新的文檔理解模型 OCR 4。這一新版本在提取文本的基礎上，增加了邊界框、塊分類和行內置信度分數。它支持跨越10個語系的170種語言，並可在單個容器中運行，實現完全自託管部署。OCR 4 還作為企業搜索、RAG 和特定領域檢索管道的攝入組件。

TL;DR

OCR 4 返回邊界框、有類型標籤的塊和每詞置信度分數，而不僅僅是文本。
支持10個語系的170種語言，在稀有和低資源語言上表現更佳。
獨立標註者偏好 OCR 4 超過所有測試系統，平均勝率達72%。
定價為每1000頁4美元，使用批量API折扣可降至2美元。
一個端點同時提供原始提取和基於模式的文檔AI輸出。

Mistral OCR 4

Mistral OCR 4 從各種文檔中提取和結構化內容。之前的版本專注於將頁面轉換為乾淨的文本和表格。而 OCR 4 則返回整個文檔的結構化表示。

每個塊都通過邊界框定位並按類型分類。塊類型包括標題、表格、方程式、簽名等。每頁和每詞生成行內置信度分數。

因此，下游系統不僅瞭解文檔説了什麼，還知道每個元素的位置、扮演的角色以及模型的置信度。這種額外的上下文對於引用、編輯和人在循環驗證至關重要。

OCR 4 支持常見的企業格式，包括 PDF、DOC、PPT 和 OpenDocument。該模型足夠緊湊，可以在單個容器中部署。企業客户可以自管理部署以滿足數據駐留和合規性要求。

基準測試

Mistral 將 OCR 4 與AI原生OCR模型、前沿通用模型、企業文檔服務和Mistral OCR 3進行了比較。

許多獨立標註者偏好 OCR 4 超過所有領先系統。平均勝率達72%。評估使用了來自第三方供應商的600多份文檔，跨越12多種語言。標註者逐文檔對每個競爭者的輸出與 OCR 4 的輸出進行排名。

在自動化基準測試中，OCR 4 在公開的 OlmOCRBench 上得分為85.20，在 OmniDocBench 上得分為93.07，在 Mistral 內部 Crawl Multilingual 評估中得分為0.98。

兩個客户數據點提供了背景。Rogo 報告稱，與領先的代理解析器相比，等效準確性下成本降低約8倍，延遲降低17倍。Anaqua 測量到每頁速度比其現有供應商快約4倍。

不僅僅是文本：分割

邊界框是 Mistral 最常要求的功能。它們定位文本以實現上下文內高亮和可靠的數據管道。

塊類型和置信度分數用於不同的任務。它們驅動基於源的引用、編輯和人在循環驗證。這種結構支持多種下游工作負載。

乾淨、分類的塊成為 RAG 更好的檢索單元。代理獲得結構原語來操作文檔，而不僅僅閲讀它們。連接器接收一致、類型化的輸出用於攝入和索引。

OCR 4 也是 Mistral 搜索工具包（現公開預覽版）的攝入組件。搜索工具包是 Mistral 的開源、可組合搜索框架。其結構化輸出為檢索和評估工作流提供可引用的輸入。

使用案例示例

OCR 4 支持高容量管道和交互式文檔工作流。

文檔解析和提取：將多語言合同轉換為乾淨的、結構化的 Markdown 用於索引。
檢索增強生成（RAG）：將分類塊輸入搜索工具包，以獲得有引用依據的答案。
代理工作流：為發票處理代理提供類型化字段和邊界框以自動填寫表單。
置信度門控管道：將低置信度區域路由給人工驗證者，自動批准其餘部分。
企業搜索：使用 OCR 4 作為數據源組件進行攝入和實體提取。

早期用户應用 OCR 4 將發票轉換為結構化字段並數字化公司檔案。其他人從技術報告中提取乾淨文本或支持企業搜索。

Mistral 官方發佈説明指出範圍：OCR 4 是一個文檔理解模型，而不是決策者。它不適用於醫療診斷、法律判斷或高風險的財務決策。它也不適用於安全關鍵系統、實時處理或非文檔輸入（如原始音頻或視頻）。

比較：純提取與文檔AI

OCR 4 通過單個API端點提供。每個請求運行相同的模型。它始終返回提取的內容、邊界框、塊類型、置信度分數和 Markdown。區別在於你在此基礎上疊加多少。

| 能力 | 純提取模式 | 文檔AI模式（同一端點） | |------|------------|------------------------| | 輸出 | Markdown、邊界框、塊類型、置信度 | 按你定義的模式的結構化JSON | | 工作原理 | 原始OCR響應 | OCR輸出饋入 mistral-small-2603 | | 圖像標註 | 不應用 | 每圖像按模式進行視覺-語言調用 | | 自定義提示 | 無 | 是，指導解釋或摘要 | | 最佳用途 | 管道、代理、批量攝入 | 業務用户、試點、無需解析邏輯 | | 價格 | 每1000頁4美元（批量2美元） | 每1000頁5美元 | | 自託管 | 企業可用 | 企業可用 |

決策規則很簡單。需要原始提取內容？直接使用OCR 4。需要將輸出重塑為模式或添加領域字段？在同一調用中添加文檔AI參數。

使用API

基本提取需要文檔URL並返回結構化頁面。設置 include_blocks=True 以獲取類型化塊和邊界框。

import os
from mistralai.client import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_url",
        "document_url": "https://arxiv.org/pdf/2201.04234"
    },
    include_blocks=True,  # 類型化塊 + 邊界框
    table_format="html",  # None（內聯）、"markdown" 或 "html"
    include_image_base64=True
)

響應是一個包含 pages 數組的JSON對象。每頁包含 Markdown、圖像、表格、超鏈接、尺寸和 confidence_scores。要門控人工審核管道，請求每詞置信度。

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={"type": "document_url",
               "document_url": "https://arxiv.org/pdf/2201.04234"},
    confidence_scores_granularity="word"  # 或 "page" 獲取聚合
)

"word" 設置會在每頁和每表格條目中添加 word_confidence_scores 數組。對於高容量任務，Mistral 推薦使用批量推理服務，該服務可將每頁成本減半。

交互式輸出瀏覽器

下方嵌入可視化 OCR 4 的結構化輸出。在示例文檔間切換，切換邊界框和塊類型，並打開置信度熱力圖。Markdown 和 JSON 選項卡並排顯示兩種輸出形狀。示例數據僅供説明，非實時API調用。

查看 Mistral OCR 4 公告、OCR 4 模型卡和 OCR 處理器文檔。另外，歡迎在 Twitter 上關注我們，並加入我們的 150k+ML SubReddit 和訂閲我們的新聞通訊。等等，你在使用 Telegram 嗎？現在你也可以在 Telegram 上加入我們。

需要與我們合作推廣你的 GitHub 倉庫、Hugging Face 頁面、產品發佈或網絡研討會等嗎？請聯繫我們。

來源：Mistral OCR 4 公告、OCR 4 模型卡、OCR 處理器文檔。

此文章最初出現在 MarkTechPost 上。