2026-06-24 07:43 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-24 08:10 UTC+8

Mistral OCR 4：為RAG、代理和企業搜尋管道提供可引用的結構化輸出

Mistral AI 釋出了 OCR 4，從純文本提取轉向結構化文件輸出。每個塊返回邊界框、型別分類以及每頁和每詞的置信度分數。該模型支援170種語言，可在單個自託管容器中執行，並透過一個API端點將可引用的輸入提供給RAG、代理和企業搜尋管道。

來源MarkTechPost作者: Asif Razzaq

今天，Mistral AI 釋出了其最新的文件理解模型 OCR 4。這一新版本在提取文本的基礎上，增加了邊界框、塊分類和行內建信度分數。它支援跨越10個語系的170種語言，並可在單個容器中執行，實現完全自託管部署。OCR 4 還作為企業搜尋、RAG 和特定領域檢索管道的攝入元件。

TL;DR

OCR 4 返回邊界框、有型別標籤的塊和每詞置信度分數，而不僅僅是文本。
支援10個語系的170種語言，在稀有和低資源語言上表現更佳。
獨立標註者偏好 OCR 4 超過所有測試系統，平均勝率達72%。
定價為每1000頁4美元，使用批次API折扣可降至2美元。
一個端點同時提供原始提取和基於模式的文件AI輸出。

Mistral OCR 4

Mistral OCR 4 從各種文件中提取和結構化內容。之前的版本專注於將頁面轉換為乾淨的文本和表格。而 OCR 4 則返回整個文件的結構化表示。

每個塊都透過邊界框定位並按型別分類。塊型別包括標題、表格、方程式、簽名等。每頁和每詞生成行內建信度分數。

因此，下游系統不僅瞭解文件說了什麼，還知道每個元素的位置、扮演的角色以及模型的置信度。這種額外的上下文對於引用、編輯和人在迴圈驗證至關重要。

OCR 4 支援常見的企業格式，包括 PDF、DOC、PPT 和 OpenDocument。該模型足夠緊湊，可以在單個容器中部署。企業客戶可以自管理部署以滿足資料駐留和合規性要求。

基準測試

Mistral 將 OCR 4 與AI原生OCR模型、前沿通用模型、企業文件服務和Mistral OCR 3進行了比較。

許多獨立標註者偏好 OCR 4 超過所有領先系統。平均勝率達72%。評估使用了來自第三方供應商的600多份文件，跨越12多種語言。標註者逐文件對每個競爭者的輸出與 OCR 4 的輸出進行排名。

在自動化基準測試中，OCR 4 在公開的 OlmOCRBench 上得分為85.20，在 OmniDocBench 上得分為93.07，在 Mistral 內部 Crawl Multilingual 評估中得分為0.98。

兩個客戶資料點提供了背景。Rogo 報告稱，與領先的代理解析器相比，等效準確性下成本降低約8倍，延遲降低17倍。Anaqua 測量到每頁速度比其現有供應商快約4倍。

不僅僅是文本：分割

邊界框是 Mistral 最常要求的功能。它們定位文本以實現上下文內高亮和可靠的資料管道。

塊型別和置信度分數用於不同的任務。它們驅動基於源的引用、編輯和人在迴圈驗證。這種結構支援多種下游工作負載。

乾淨、分類的塊成為 RAG 更好的檢索單元。代理獲得結構原語來操作文件，而不僅僅閱讀它們。聯結器接收一致、型別化的輸出用於攝入和索引。

OCR 4 也是 Mistral 搜尋工具包（現公開預覽版）的攝入元件。搜尋工具包是 Mistral 的開源、可組合搜尋框架。其結構化輸出為檢索和評估工作流提供可引用的輸入。

使用案例示例

OCR 4 支援高容量管道和互動式文件工作流。

文件解析和提取：將多語言合同轉換為乾淨的、結構化的 Markdown 用於索引。
檢索增強生成（RAG）：將分類塊輸入搜尋工具包，以獲得有引用依據的答案。
代理工作流：為發票處理代理提供型別化欄位和邊界框以自動填寫表單。
置信度門控管道：將低置信度區域路由給人工驗證者，自動批准其餘部分。
企業搜尋：使用 OCR 4 作為資料來源元件進行攝入和實體提取。

早期使用者應用 OCR 4 將發票轉換為結構化欄位並數字化公司檔案。其他人從技術報告中提取乾淨文本或支援企業搜尋。

Mistral 官方釋出說明指出範圍：OCR 4 是一個文件理解模型，而不是決策者。它不適用於醫療診斷、法律判斷或高風險的財務決策。它也不適用於安全關鍵系統、即時處理或非文件輸入（如原始音訊或影片）。

比較：純提取與文件AI

OCR 4 透過單個API端點提供。每個請求執行相同的模型。它始終返回提取的內容、邊界框、塊型別、置信度分數和 Markdown。區別在於你在此基礎上疊加多少。

| 能力 | 純提取模式 | 文件AI模式（同一端點） | |------|------------|------------------------| | 輸出 | Markdown、邊界框、塊型別、置信度 | 按你定義的模式的結構化JSON | | 工作原理 | 原始OCR響應 | OCR輸出饋入 mistral-small-2603 | | 影像標註 | 不應用 | 每影像按模式進行視覺-語言呼叫 | | 自定義提示 | 無 | 是，指導解釋或摘要 | | 最佳用途 | 管道、代理、批次攝入 | 業務使用者、試點、無需解析邏輯 | | 價格 | 每1000頁4美元（批次2美元） | 每1000頁5美元 | | 自託管 | 企業可用 | 企業可用 |

決策規則很簡單。需要原始提取內容？直接使用OCR 4。需要將輸出重塑為模式或新增領域欄位？在同一呼叫中新增文件AI引數。

使用API

基本提取需要文件URL並返回結構化頁面。設定 include_blocks=True 以獲取型別化塊和邊界框。

import os
from mistralai.client import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_url",
        "document_url": "https://arxiv.org/pdf/2201.04234"
    },
    include_blocks=True,  # 型別化塊 + 邊界框
    table_format="html",  # None（內聯）、"markdown" 或 "html"
    include_image_base64=True
)

響應是一個包含 pages 陣列的JSON物件。每頁包含 Markdown、影像、表格、超連結、尺寸和 confidence_scores。要門控人工稽核管道，請求每詞置信度。

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={"type": "document_url",
               "document_url": "https://arxiv.org/pdf/2201.04234"},
    confidence_scores_granularity="word"  # 或 "page" 獲取聚合
)

"word" 設定會在每頁和每表格條目中新增 word_confidence_scores 陣列。對於高容量任務，Mistral 推薦使用批次推理服務，該服務可將每頁成本減半。

互動式輸出瀏覽器

下方嵌入視覺化 OCR 4 的結構化輸出。在示例文件間切換，切換邊界框和塊型別，並開啟置信度熱力圖。Markdown 和 JSON 選項卡並排顯示兩種輸出形狀。示例資料僅供說明，非即時API呼叫。

檢視 Mistral OCR 4 公告、OCR 4 模型卡和 OCR 處理器文件。另外，歡迎在 Twitter 上關注我們，並加入我們的 150k+ML SubReddit 和訂閱我們的新聞通訊。等等，你在使用 Telegram 嗎？現在你也可以在 Telegram 上加入我們。

需要與我們合作推廣你的 GitHub 倉庫、Hugging Face 頁面、產品釋出或網路研討會等嗎？請聯絡我們。

來源：Mistral OCR 4 公告、OCR 4 模型卡、OCR 處理器文件。

此文章最初出現在 MarkTechPost 上。