2026-06-23 22:21 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Mistral OCR 4：文件智慧的新一代OCR

Mistral 釋出 OCR 4，提供邊界框、區塊分類和置信度分數，支援 170 種語言。在人類偏好評估中表現優於所有競品，在公開基準測試中取得最高分，但存在評分侷限性。定價為每千頁 4 美元，可自託管。

Mistral 今日正式釋出 Mistral OCR 4，這是其文件理解模型的最新迭代。與僅提取文本的傳統 OCR 不同，OCR 4 返回豐富的結構化輸出，包括每個文本塊的邊界框、區塊型別（如標題、表格、公式、簽名等）以及逐頁、逐詞的置信度分數。這使得下游系統不僅知道文件內容，還能瞭解每個元素的位置、角色以及模型的置信程度，為檢索增強生成（RAG）、智慧代理和工作流自動化提供了更可靠的輸入。

OCR 4 在效能上實現了突破。在涉及 600 多份文件、12 種語言的人類偏好對比評估中，獨立標註者優先選擇 OCR 4 的比率平均達到 72%，領先於所有被測試的領先 OCR 和文件 AI 系統。在公開基準測試 OlmOCRBench 上，OCR 4 取得了 85.20 的最高分；內部多語言評估中，其得分高達 0.98，在英語、西歐、東歐、中東、中文、東亞、東南亞及稀有語言等所有語系中均位居榜首。不過，公司也坦誠指出了基準測試的侷限性：許多所謂的“錯誤”實際上是評分機制的偽影，例如參考標註本身的錯誤、等價數學符號的字串誤判、多欄閱讀順序的假設偏差等。因此，建議使用者在自己的文件上進行評估。

在功能覆蓋方面，OCR 4 支援 170 種語言，覆蓋 10 個語系，尤其擅長處理稀有和低資源語言（如印地語、日語、喬治亞語、孟加拉語、亞美尼亞語等），這些語言在許多競品系統中效能會大幅下降。該模型可接受 PDF、DOC、PPT 和 OpenDocument 等常見企業格式，並且設計緊湊，僅需一個容器即可部署，支援完全自託管，滿足資料駐留和主權要求。透過 Batch API，使用者還可以實現高效的高吞吐量批處理。

定價方面，OCR 4 的 API 價格為每千頁 4 美元，Batch API 享受 50% 折扣，降至每千頁 2 美元。對於需要結構化輸出的使用者，Document AI（基於 OCR 4）每千頁收費 5 美元，支援傳入 JSON schema 以自動生成符合規範的結構化資料，並可選配自定義提示和影像註釋。

OCR 4 現已透過 Mistral Studio、Amazon SageMaker、Microsoft Foundry 等平臺提供 API 訪問，即將登陸 Snowflake Parse Document。對於有嚴格資料隱私要求的組織，OCR 4 還提供自託管選項。微軟 AI 生態系統合作伙伴副總裁 Kimmi Grewal 表示：“Mistral Document AI 與 OCR 4 在 Microsoft Foundry 中的可用性標誌著我們合作的一個重要里程碑。”早期使用者已將 OCR 4 用於發票結構化、公司檔案數字化、技術報告文本提取以及企業搜尋等場景。

Mistral 強調，OCR 4 是一個文件理解模型，而非決策引擎，不應用於醫療診斷、法律建議、高風險金融決策或安全關鍵系統。開發者可根據需求選擇純提取模式或啟用 Document AI 功能，以在原始 OCR 結果之上疊加結構化層。