Mistral OCR 4:為RAG、代理和企業搜索管道提供可引用的結構化輸出
Mistral AI 發佈了 OCR 4,從純文本提取轉向結構化文檔輸出。每個塊返回邊界框、類型分類以及每頁和每詞的置信度分數。該模型支持170種語言,可在單個自託管容器中運行,並通過一個API端點將可引用的輸入提供給RAG、代理和企業搜索管道。
今天,Mistral AI 發佈了其最新的文檔理解模型 OCR 4。這一新版本在提取文本的基礎上,增加了邊界框、塊分類和行內置信度分數。它支持跨越10個語系的170種語言,並可在單個容器中運行,實現完全自託管部署。OCR 4 還作為企業搜索、RAG 和特定領域檢索管道的攝入組件。
TL;DR
- OCR 4 返回邊界框、有類型標籤的塊和每詞置信度分數,而不僅僅是文本。
- 支持10個語系的170種語言,在稀有和低資源語言上表現更佳。
- 獨立標註者偏好 OCR 4 超過所有測試系統,平均勝率達72%。
- 定價為每1000頁4美元,使用批量API折扣可降至2美元。
- 一個端點同時提供原始提取和基於模式的文檔AI輸出。
Mistral OCR 4
Mistral OCR 4 從各種文檔中提取和結構化內容。之前的版本專注於將頁面轉換為乾淨的文本和表格。而 OCR 4 則返回整個文檔的結構化表示。
每個塊都通過邊界框定位並按類型分類。塊類型包括標題、表格、方程式、簽名等。每頁和每詞生成行內置信度分數。
因此,下游系統不僅瞭解文檔説了什麼,還知道每個元素的位置、扮演的角色以及模型的置信度。這種額外的上下文對於引用、編輯和人在循環驗證至關重要。
OCR 4 支持常見的企業格式,包括 PDF、DOC、PPT 和 OpenDocument。該模型足夠緊湊,可以在單個容器中部署。企業客户可以自管理部署以滿足數據駐留和合規性要求。
基準測試
Mistral 將 OCR 4 與AI原生OCR模型、前沿通用模型、企業文檔服務和Mistral OCR 3進行了比較。
許多獨立標註者偏好 OCR 4 超過所有領先系統。平均勝率達72%。評估使用了來自第三方供應商的600多份文檔,跨越12多種語言。標註者逐文檔對每個競爭者的輸出與 OCR 4 的輸出進行排名。
在自動化基準測試中,OCR 4 在公開的 OlmOCRBench 上得分為85.20,在 OmniDocBench 上得分為93.07,在 Mistral 內部 Crawl Multilingual 評估中得分為0.98。
兩個客户數據點提供了背景。Rogo 報告稱,與領先的代理解析器相比,等效準確性下成本降低約8倍,延遲降低17倍。Anaqua 測量到每頁速度比其現有供應商快約4倍。
不僅僅是文本:分割
邊界框是 Mistral 最常要求的功能。它們定位文本以實現上下文內高亮和可靠的數據管道。
塊類型和置信度分數用於不同的任務。它們驅動基於源的引用、編輯和人在循環驗證。這種結構支持多種下游工作負載。
乾淨、分類的塊成為 RAG 更好的檢索單元。代理獲得結構原語來操作文檔,而不僅僅閲讀它們。連接器接收一致、類型化的輸出用於攝入和索引。
OCR 4 也是 Mistral 搜索工具包(現公開預覽版)的攝入組件。搜索工具包是 Mistral 的開源、可組合搜索框架。其結構化輸出為檢索和評估工作流提供可引用的輸入。
使用案例示例
OCR 4 支持高容量管道和交互式文檔工作流。
- 文檔解析和提取:將多語言合同轉換為乾淨的、結構化的 Markdown 用於索引。
- 檢索增強生成(RAG):將分類塊輸入搜索工具包,以獲得有引用依據的答案。
- 代理工作流:為發票處理代理提供類型化字段和邊界框以自動填寫表單。
- 置信度門控管道:將低置信度區域路由給人工驗證者,自動批准其餘部分。
- 企業搜索:使用 OCR 4 作為數據源組件進行攝入和實體提取。
早期用户應用 OCR 4 將發票轉換為結構化字段並數字化公司檔案。其他人從技術報告中提取乾淨文本或支持企業搜索。
Mistral 官方發佈説明指出範圍:OCR 4 是一個文檔理解模型,而不是決策者。它不適用於醫療診斷、法律判斷或高風險的財務決策。它也不適用於安全關鍵系統、實時處理或非文檔輸入(如原始音頻或視頻)。
比較:純提取與文檔AI
OCR 4 通過單個API端點提供。每個請求運行相同的模型。它始終返回提取的內容、邊界框、塊類型、置信度分數和 Markdown。區別在於你在此基礎上疊加多少。
| 能力 | 純提取模式 | 文檔AI模式(同一端點) | |------|------------|------------------------| | 輸出 | Markdown、邊界框、塊類型、置信度 | 按你定義的模式的結構化JSON | | 工作原理 | 原始OCR響應 | OCR輸出饋入 mistral-small-2603 | | 圖像標註 | 不應用 | 每圖像按模式進行視覺-語言調用 | | 自定義提示 | 無 | 是,指導解釋或摘要 | | 最佳用途 | 管道、代理、批量攝入 | 業務用户、試點、無需解析邏輯 | | 價格 | 每1000頁4美元(批量2美元) | 每1000頁5美元 | | 自託管 | 企業可用 | 企業可用 |
決策規則很簡單。需要原始提取內容?直接使用OCR 4。需要將輸出重塑為模式或添加領域字段?在同一調用中添加文檔AI參數。
使用API
基本提取需要文檔URL並返回結構化頁面。設置 include_blocks=True 以獲取類型化塊和邊界框。
import os
from mistralai.client import Mistral
client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"
},
include_blocks=True, # 類型化塊 + 邊界框
table_format="html", # None(內聯)、"markdown" 或 "html"
include_image_base64=True
)響應是一個包含 pages 數組的JSON對象。每頁包含 Markdown、圖像、表格、超鏈接、尺寸和 confidence_scores。要門控人工審核管道,請求每詞置信度。
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"},
confidence_scores_granularity="word" # 或 "page" 獲取聚合
)"word" 設置會在每頁和每表格條目中添加 word_confidence_scores 數組。對於高容量任務,Mistral 推薦使用批量推理服務,該服務可將每頁成本減半。
交互式輸出瀏覽器
下方嵌入可視化 OCR 4 的結構化輸出。在示例文檔間切換,切換邊界框和塊類型,並打開置信度熱力圖。Markdown 和 JSON 選項卡並排顯示兩種輸出形狀。示例數據僅供説明,非實時API調用。
查看 Mistral OCR 4 公告、OCR 4 模型卡和 OCR 處理器文檔。另外,歡迎在 Twitter 上關注我們,並加入我們的 150k+ML SubReddit 和訂閲我們的新聞通訊。等等,你在使用 Telegram 嗎?現在你也可以在 Telegram 上加入我們。
需要與我們合作推廣你的 GitHub 倉庫、Hugging Face 頁面、產品發佈或網絡研討會等嗎?請聯繫我們。
來源:Mistral OCR 4 公告、OCR 4 模型卡、OCR 處理器文檔。
此文章最初出現在 MarkTechPost 上。