AI News HubLIVE
站內改寫4 分鐘閱讀

Mistral OCR 4:為RAG、代理和企業搜尋管道提供可引用的結構化輸出

Mistral AI 釋出了 OCR 4,從純文本提取轉向結構化文件輸出。每個塊返回邊界框、型別分類以及每頁和每詞的置信度分數。該模型支援170種語言,可在單個自託管容器中執行,並透過一個API端點將可引用的輸入提供給RAG、代理和企業搜尋管道。

來源MarkTechPost作者: Asif Razzaq

今天,Mistral AI 釋出了其最新的文件理解模型 OCR 4。這一新版本在提取文本的基礎上,增加了邊界框、塊分類和行內建信度分數。它支援跨越10個語系的170種語言,並可在單個容器中執行,實現完全自託管部署。OCR 4 還作為企業搜尋、RAG 和特定領域檢索管道的攝入元件。

TL;DR

  • OCR 4 返回邊界框、有型別標籤的塊和每詞置信度分數,而不僅僅是文本。
  • 支援10個語系的170種語言,在稀有和低資源語言上表現更佳。
  • 獨立標註者偏好 OCR 4 超過所有測試系統,平均勝率達72%。
  • 定價為每1000頁4美元,使用批次API折扣可降至2美元。
  • 一個端點同時提供原始提取和基於模式的文件AI輸出。

Mistral OCR 4

Mistral OCR 4 從各種文件中提取和結構化內容。之前的版本專注於將頁面轉換為乾淨的文本和表格。而 OCR 4 則返回整個文件的結構化表示。

每個塊都透過邊界框定位並按型別分類。塊型別包括標題、表格、方程式、簽名等。每頁和每詞生成行內建信度分數。

因此,下游系統不僅瞭解文件說了什麼,還知道每個元素的位置、扮演的角色以及模型的置信度。這種額外的上下文對於引用、編輯和人在迴圈驗證至關重要。

OCR 4 支援常見的企業格式,包括 PDF、DOC、PPT 和 OpenDocument。該模型足夠緊湊,可以在單個容器中部署。企業客戶可以自管理部署以滿足資料駐留和合規性要求。

基準測試

Mistral 將 OCR 4 與AI原生OCR模型、前沿通用模型、企業文件服務和Mistral OCR 3進行了比較。

許多獨立標註者偏好 OCR 4 超過所有領先系統。平均勝率達72%。評估使用了來自第三方供應商的600多份文件,跨越12多種語言。標註者逐文件對每個競爭者的輸出與 OCR 4 的輸出進行排名。

在自動化基準測試中,OCR 4 在公開的 OlmOCRBench 上得分為85.20,在 OmniDocBench 上得分為93.07,在 Mistral 內部 Crawl Multilingual 評估中得分為0.98。

兩個客戶資料點提供了背景。Rogo 報告稱,與領先的代理解析器相比,等效準確性下成本降低約8倍,延遲降低17倍。Anaqua 測量到每頁速度比其現有供應商快約4倍。

不僅僅是文本:分割

邊界框是 Mistral 最常要求的功能。它們定位文本以實現上下文內高亮和可靠的資料管道。

塊型別和置信度分數用於不同的任務。它們驅動基於源的引用、編輯和人在迴圈驗證。這種結構支援多種下游工作負載。

乾淨、分類的塊成為 RAG 更好的檢索單元。代理獲得結構原語來操作文件,而不僅僅閱讀它們。聯結器接收一致、型別化的輸出用於攝入和索引。

OCR 4 也是 Mistral 搜尋工具包(現公開預覽版)的攝入元件。搜尋工具包是 Mistral 的開源、可組合搜尋框架。其結構化輸出為檢索和評估工作流提供可引用的輸入。

使用案例示例

OCR 4 支援高容量管道和互動式文件工作流。

  • 文件解析和提取:將多語言合同轉換為乾淨的、結構化的 Markdown 用於索引。
  • 檢索增強生成(RAG):將分類塊輸入搜尋工具包,以獲得有引用依據的答案。
  • 代理工作流:為發票處理代理提供型別化欄位和邊界框以自動填寫表單。
  • 置信度門控管道:將低置信度區域路由給人工驗證者,自動批准其餘部分。
  • 企業搜尋:使用 OCR 4 作為資料來源元件進行攝入和實體提取。

早期使用者應用 OCR 4 將發票轉換為結構化欄位並數字化公司檔案。其他人從技術報告中提取乾淨文本或支援企業搜尋。

Mistral 官方釋出說明指出範圍:OCR 4 是一個文件理解模型,而不是決策者。它不適用於醫療診斷、法律判斷或高風險的財務決策。它也不適用於安全關鍵系統、即時處理或非文件輸入(如原始音訊或影片)。

比較:純提取與文件AI

OCR 4 透過單個API端點提供。每個請求執行相同的模型。它始終返回提取的內容、邊界框、塊型別、置信度分數和 Markdown。區別在於你在此基礎上疊加多少。

| 能力 | 純提取模式 | 文件AI模式(同一端點) | |------|------------|------------------------| | 輸出 | Markdown、邊界框、塊型別、置信度 | 按你定義的模式的結構化JSON | | 工作原理 | 原始OCR響應 | OCR輸出饋入 mistral-small-2603 | | 影像標註 | 不應用 | 每影像按模式進行視覺-語言呼叫 | | 自定義提示 | 無 | 是,指導解釋或摘要 | | 最佳用途 | 管道、代理、批次攝入 | 業務使用者、試點、無需解析邏輯 | | 價格 | 每1000頁4美元(批次2美元) | 每1000頁5美元 | | 自託管 | 企業可用 | 企業可用 |

決策規則很簡單。需要原始提取內容?直接使用OCR 4。需要將輸出重塑為模式或新增領域欄位?在同一呼叫中新增文件AI引數。

使用API

基本提取需要文件URL並返回結構化頁面。設定 include_blocks=True 以獲取型別化塊和邊界框。

import os
from mistralai.client import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_url",
        "document_url": "https://arxiv.org/pdf/2201.04234"
    },
    include_blocks=True,  # 型別化塊 + 邊界框
    table_format="html",  # None(內聯)、"markdown" 或 "html"
    include_image_base64=True
)

響應是一個包含 pages 陣列的JSON物件。每頁包含 Markdown、影像、表格、超連結、尺寸和 confidence_scores。要門控人工稽核管道,請求每詞置信度。

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={"type": "document_url",
               "document_url": "https://arxiv.org/pdf/2201.04234"},
    confidence_scores_granularity="word"  # 或 "page" 獲取聚合
)

"word" 設定會在每頁和每表格條目中新增 word_confidence_scores 陣列。對於高容量任務,Mistral 推薦使用批次推理服務,該服務可將每頁成本減半。

互動式輸出瀏覽器

下方嵌入視覺化 OCR 4 的結構化輸出。在示例文件間切換,切換邊界框和塊型別,並開啟置信度熱力圖。Markdown 和 JSON 選項卡並排顯示兩種輸出形狀。示例資料僅供說明,非即時API呼叫。

檢視 Mistral OCR 4 公告、OCR 4 模型卡和 OCR 處理器文件。另外,歡迎在 Twitter 上關注我們,並加入我們的 150k+ML SubReddit 和訂閱我們的新聞通訊。等等,你在使用 Telegram 嗎?現在你也可以在 Telegram 上加入我們。

需要與我們合作推廣你的 GitHub 倉庫、Hugging Face 頁面、產品釋出或網路研討會等嗎?請聯絡我們。

來源:Mistral OCR 4 公告、OCR 4 模型卡、OCR 處理器文件。

此文章最初出現在 MarkTechPost 上。