Mistral OCR 4:文檔智能的新一代OCR
Mistral 發佈 OCR 4,提供邊界框、區塊分類和置信度分數,支持 170 種語言。在人類偏好評估中表現優於所有競品,在公開基準測試中取得最高分,但存在評分侷限性。定價為每千頁 4 美元,可自託管。
Mistral 今日正式發佈 Mistral OCR 4,這是其文檔理解模型的最新迭代。與僅提取文本的傳統 OCR 不同,OCR 4 返回豐富的結構化輸出,包括每個文本塊的邊界框、區塊類型(如標題、表格、公式、簽名等)以及逐頁、逐詞的置信度分數。這使得下游系統不僅知道文檔內容,還能瞭解每個元素的位置、角色以及模型的置信程度,為檢索增強生成(RAG)、智能代理和工作流自動化提供了更可靠的輸入。
OCR 4 在性能上實現了突破。在涉及 600 多份文檔、12 種語言的人類偏好對比評估中,獨立標註者優先選擇 OCR 4 的比率平均達到 72%,領先於所有被測試的領先 OCR 和文檔 AI 系統。在公開基準測試 OlmOCRBench 上,OCR 4 取得了 85.20 的最高分;內部多語言評估中,其得分高達 0.98,在英語、西歐、東歐、中東、中文、東亞、東南亞及稀有語言等所有語系中均位居榜首。不過,公司也坦誠指出了基準測試的侷限性:許多所謂的“錯誤”實際上是評分機制的偽影,例如參考標註本身的錯誤、等價數學符號的字符串誤判、多欄閲讀順序的假設偏差等。因此,建議用户在自己的文檔上進行評估。
在功能覆蓋方面,OCR 4 支持 170 種語言,覆蓋 10 個語系,尤其擅長處理稀有和低資源語言(如印地語、日語、格魯吉亞語、孟加拉語、亞美尼亞語等),這些語言在許多競品系統中性能會大幅下降。該模型可接受 PDF、DOC、PPT 和 OpenDocument 等常見企業格式,並且設計緊湊,僅需一個容器即可部署,支持完全自託管,滿足數據駐留和主權要求。通過 Batch API,用户還可以實現高效的高吞吐量批處理。
定價方面,OCR 4 的 API 價格為每千頁 4 美元,Batch API 享受 50% 折扣,降至每千頁 2 美元。對於需要結構化輸出的用户,Document AI(基於 OCR 4)每千頁收費 5 美元,支持傳入 JSON schema 以自動生成符合規範的結構化數據,並可選配自定義提示和圖像註釋。
OCR 4 現已通過 Mistral Studio、Amazon SageMaker、Microsoft Foundry 等平台提供 API 訪問,即將登陸 Snowflake Parse Document。對於有嚴格數據隱私要求的組織,OCR 4 還提供自託管選項。微軟 AI 生態系統合作伙伴副總裁 Kimmi Grewal 表示:“Mistral Document AI 與 OCR 4 在 Microsoft Foundry 中的可用性標誌着我們合作的一個重要里程碑。”早期用户已將 OCR 4 用於發票結構化、公司檔案數字化、技術報告文本提取以及企業搜索等場景。
Mistral 強調,OCR 4 是一個文檔理解模型,而非決策引擎,不應用於醫療診斷、法律建議、高風險金融決策或安全關鍵系統。開發者可根據需求選擇純提取模式或啓用 Document AI 功能,以在原始 OCR 結果之上疊加結構化層。