AI News HubLIVE
站內改寫2 分鐘閱讀

Mistral OCR 4:文件智慧的新一代OCR

Mistral 釋出 OCR 4,提供邊界框、區塊分類和置信度分數,支援 170 種語言。在人類偏好評估中表現優於所有競品,在公開基準測試中取得最高分,但存在評分侷限性。定價為每千頁 4 美元,可自託管。

Mistral 今日正式釋出 Mistral OCR 4,這是其文件理解模型的最新迭代。與僅提取文本的傳統 OCR 不同,OCR 4 返回豐富的結構化輸出,包括每個文本塊的邊界框、區塊型別(如標題、表格、公式、簽名等)以及逐頁、逐詞的置信度分數。這使得下游系統不僅知道文件內容,還能瞭解每個元素的位置、角色以及模型的置信程度,為檢索增強生成(RAG)、智慧代理和工作流自動化提供了更可靠的輸入。

OCR 4 在效能上實現了突破。在涉及 600 多份文件、12 種語言的人類偏好對比評估中,獨立標註者優先選擇 OCR 4 的比率平均達到 72%,領先於所有被測試的領先 OCR 和文件 AI 系統。在公開基準測試 OlmOCRBench 上,OCR 4 取得了 85.20 的最高分;內部多語言評估中,其得分高達 0.98,在英語、西歐、東歐、中東、中文、東亞、東南亞及稀有語言等所有語系中均位居榜首。不過,公司也坦誠指出了基準測試的侷限性:許多所謂的“錯誤”實際上是評分機制的偽影,例如參考標註本身的錯誤、等價數學符號的字串誤判、多欄閱讀順序的假設偏差等。因此,建議使用者在自己的文件上進行評估。

在功能覆蓋方面,OCR 4 支援 170 種語言,覆蓋 10 個語系,尤其擅長處理稀有和低資源語言(如印地語、日語、喬治亞語、孟加拉語、亞美尼亞語等),這些語言在許多競品系統中效能會大幅下降。該模型可接受 PDF、DOC、PPT 和 OpenDocument 等常見企業格式,並且設計緊湊,僅需一個容器即可部署,支援完全自託管,滿足資料駐留和主權要求。透過 Batch API,使用者還可以實現高效的高吞吐量批處理。

定價方面,OCR 4 的 API 價格為每千頁 4 美元,Batch API 享受 50% 折扣,降至每千頁 2 美元。對於需要結構化輸出的使用者,Document AI(基於 OCR 4)每千頁收費 5 美元,支援傳入 JSON schema 以自動生成符合規範的結構化資料,並可選配自定義提示和影像註釋。

OCR 4 現已透過 Mistral Studio、Amazon SageMaker、Microsoft Foundry 等平臺提供 API 訪問,即將登陸 Snowflake Parse Document。對於有嚴格資料隱私要求的組織,OCR 4 還提供自託管選項。微軟 AI 生態系統合作伙伴副總裁 Kimmi Grewal 表示:“Mistral Document AI 與 OCR 4 在 Microsoft Foundry 中的可用性標誌著我們合作的一個重要里程碑。”早期使用者已將 OCR 4 用於發票結構化、公司檔案數字化、技術報告文本提取以及企業搜尋等場景。

Mistral 強調,OCR 4 是一個文件理解模型,而非決策引擎,不應用於醫療診斷、法律建議、高風險金融決策或安全關鍵系統。開發者可根據需求選擇純提取模式或啟用 Document AI 功能,以在原始 OCR 結果之上疊加結構化層。