2026-06-23 22:03 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-23 22:06 UTC+8

Mistral OCR 4 發佈：突破性的文檔理解模型

Mistral OCR 4 引入了邊界框、塊分類和置信度分數，在人類偏好測試中優於所有競爭對手，平均勝率達72%。支持170種語言，可單容器自託管，定價為每千頁4美元。

來源Hacker News AI作者: meetpateltech

Mistral AI 今日正式發佈 Mistral OCR 4，這是其文檔理解模型的最新版本。與前代僅輸出文本和表格不同，OCR 4 返回結構化的文檔表示：每個文本塊都帶有邊界框、類型分類（如標題、表格、等式、簽名等）以及逐頁和逐字的置信度分數。這意味着下游系統不僅能知道文檔説了什麼，還能知道每個元素的位置、角色以及模型的置信度。

在基準測試中，OCR 4 表現突出。在人類偏好評估中，獨立標註員在600多份涉及12種以上語言的文檔中，首選 OCR 4 的比例高達72%，領先所有競爭對手。在公開的 OlmOCRBench 上，OCR 4 以85.20分位居榜首；在內部多語言評估中，它在所有8個語系（英語、西歐、東歐、中東、中文、東亞、東南亞及稀有語言）中均領先，尤其在稀有語言上優勢明顯。值得注意的是，團隊指出當前基準測試存在標註錯誤、數學符號表示差異等評分缺陷，因此建議用户在自己的文檔上實際評估。

OCR 4 支持170種語言，覆蓋10個語系，包括許多稀有和低資源語言。模型緊湊，可在單個容器中部署，適合隱私敏感的高吞吐量場景。定價方面，API 每千頁4美元，批處理僅2美元；如使用 Document AI（在 OCR 輸出上疊加結構化 JSON），每千頁5美元。

該模型已集成至 Mistral Search Toolkit，為檢索增強生成（RAG）和企業搜索提供結構化輸入。早期用户已將其用於發票結構化、檔案數字化、技術報告提取等場景。Mistral 強調 OCR 4 是文檔理解模型，而非決策系統，不適用於醫療診斷、法律諮詢等高危領域。

開發者可通過 Mistral Studio、Amazon SageMaker、Microsoft Foundry 以及即將支持的 Snowflake Parse Document 使用 OCR 4。對於有嚴格數據隱私要求的組織，OCR 4 也支持完全自託管部署。新版還提供了 Document AI 選項，允許用户通過同一端點傳遞 JSON 模式或自定義提示，將 OCR 輸出轉換為特定格式的結構化數據。