AI News HubLIVE
站內改寫1 分鐘閱讀

Mistral OCR 4 發佈:突破性的文檔理解模型

Mistral OCR 4 引入了邊界框、塊分類和置信度分數,在人類偏好測試中優於所有競爭對手,平均勝率達72%。支持170種語言,可單容器自託管,定價為每千頁4美元。

來源Hacker News AI作者: meetpateltech

Mistral AI 今日正式發佈 Mistral OCR 4,這是其文檔理解模型的最新版本。與前代僅輸出文本和表格不同,OCR 4 返回結構化的文檔表示:每個文本塊都帶有邊界框、類型分類(如標題、表格、等式、簽名等)以及逐頁和逐字的置信度分數。這意味着下游系統不僅能知道文檔説了什麼,還能知道每個元素的位置、角色以及模型的置信度。

在基準測試中,OCR 4 表現突出。在人類偏好評估中,獨立標註員在600多份涉及12種以上語言的文檔中,首選 OCR 4 的比例高達72%,領先所有競爭對手。在公開的 OlmOCRBench 上,OCR 4 以85.20分位居榜首;在內部多語言評估中,它在所有8個語系(英語、西歐、東歐、中東、中文、東亞、東南亞及稀有語言)中均領先,尤其在稀有語言上優勢明顯。值得注意的是,團隊指出當前基準測試存在標註錯誤、數學符號表示差異等評分缺陷,因此建議用户在自己的文檔上實際評估。

OCR 4 支持170種語言,覆蓋10個語系,包括許多稀有和低資源語言。模型緊湊,可在單個容器中部署,適合隱私敏感的高吞吐量場景。定價方面,API 每千頁4美元,批處理僅2美元;如使用 Document AI(在 OCR 輸出上疊加結構化 JSON),每千頁5美元。

該模型已集成至 Mistral Search Toolkit,為檢索增強生成(RAG)和企業搜索提供結構化輸入。早期用户已將其用於發票結構化、檔案數字化、技術報告提取等場景。Mistral 強調 OCR 4 是文檔理解模型,而非決策系統,不適用於醫療診斷、法律諮詢等高危領域。

開發者可通過 Mistral Studio、Amazon SageMaker、Microsoft Foundry 以及即將支持的 Snowflake Parse Document 使用 OCR 4。對於有嚴格數據隱私要求的組織,OCR 4 也支持完全自託管部署。新版還提供了 Document AI 選項,允許用户通過同一端點傳遞 JSON 模式或自定義提示,將 OCR 輸出轉換為特定格式的結構化數據。