Mistral OCR 4:RAG、エージェント、エンタープライズ検索パイプラインに引用可能な構造化出力を提供
Mistral AI は2026年6月23日、OCR 4をリリースしました。これは、クリーンなテキスト抽出から構造化ドキュメント出力に移行したものです。各ブロックは、バウンディングボックス、型分類、ページ単位および単語単位の信頼度スコアを返します。このモデルは170の言語をサポートし、単一のセルフホストコンテナで実行され、1つのAPIエンドポイントを通じて引用可能な入力をRAG、エージェント、エンタープライズ検索パイプラインに供給します。
本日、Mistral AIは最新のドキュメント理解モデルOCR 4をリリースしました。この新しいリリースでは、テキスト抽出に加えて、バウンディングボックス、ブロック分類、インライン信頼度スコアが追加されています。10の言語グループにわたる170の言語をサポートし、単一のコンテナで完全にセルフホスト可能なデプロイメントを実現します。OCR 4はまた、エンタープライズ検索、RAG、ドメイン固有の検索パイプラインの取り込みコンポーネントとして機能します。
TL;DR
- OCR 4はテキストだけでなく、バウンディングボックス、型付きブロック、単語単位の信頼度スコアを返します。
- 10のグループにわたる170の言語をサポートし、希少言語や低リソース言語で向上しています。
- 独立したアノテーターはOCR 4をすべてのテストシステムよりも好み、平均勝率は72%でした。
- 価格は1,000ページあたり4ドルで、バッチAPI割引により2ドルになります。
- 1つのエンドポイントで生の抽出とスキーマ駆動のDocument AI出力の両方を提供します。
Mistral OCR 4
Mistral OCR 4は、さまざまなドキュメントからコンテンツを抽出し構造化します。以前の世代は、ページをクリーンなテキストとテーブルに変換することに重点を置いていましたが、OCR 4はドキュメント全体の構造化された表現を返します。
各ブロックはバウンディングボックスで位置が特定され、タイプによって分類されます。ブロックタイプには、タイトル、テーブル、方程式、署名などが含まれます。インライン信頼度スコアはページごとおよび単語ごとに生成されます。
したがって、ダウンストリームシステムは、ドキュメントの内容だけでなく、各要素の位置、役割、モデルの信頼度も学習します。この追加のコンテキストは、引用、編集、人間参加型検証にとって重要です。
OCR 4は、PDF、DOC、PPT、OpenDocumentなど、一般的なエンタープライズ形式をサポートします。モデルは十分にコンパクトで、単一のコンテナにデプロイできます。セルフマネージドデプロイメントは、データ主権とコンプライアンスのためにエンタープライズ顧客が利用できます。
ベンチマーク
MistralはOCR 4を、AIネイティブOCRモデル、フロンティア汎用モデル、エンタープライズドキュメントサービス、およびMistral OCR 3と比較しました。
多くの独立したアノテーターが、テストされたすべての主要システムよりもOCR 4を好みました。平均勝率は比較セット全体で72%でした。評価には、サードパーティベンダーから提供された12以上の言語にわたる600以上のドキュメントが使用されました。アノテーターは、各競合他社の出力をOCR 4の出力とドキュメントごとにランク付けしました。
自動化ベンチマークでは、OCR 4は公開されているOlmOCRBenchで85.20、OmniDocBenchで93.07、Mistral内部のCrawl Multilingual評価で0.98を獲得しました。
2つの顧客データポイントがコンテキストを追加します。Rogoは、主要なエージェントパーサーと比較して、同等の精度でコストが約8分の1、レイテンシが17分の1であると報告しました。Anaquaは、既存のプロバイダーよりもページあたり約4倍高速であると測定しました。
テキストだけではない:セグメンテーション
バウンディングボックスは、Mistralが最も要望の多かった機能です。これらは、コンテキスト内ハイライトと信頼性の高いデータパイプラインのためにテキストを特定します。
ブロックタイプと信頼度スコアは異なるジョブに役立ちます。これらは、ソースに基づく引用、編集、人間参加型検証を推進します。この構造は、いくつかのダウンストリームワークロードをサポートします。
クリーンで分類されたブロックは、RAGのより優れた検索ユニットになります。エージェントは、ドキュメントを読むだけでなく操作するための構造的プリミティブを獲得します。コネクタは、取り込みとインデックス作成のために一貫した型付き出力を受け取ります。
OCR 4はまた、現在パブリックプレビュー中のMistral Search Toolkitの取り込みコンポーネントでもあります。Search Toolkitは、Mistralのオープンソースで構成可能な検索フレームワークです。その構造化出力は、検索と評価のワークフローに引用可能な入力を提供します。
使用例と例
OCR 4は、大容量パイプラインとインタラクティブなドキュメントワークフローの両方をサポートします。
- ドキュメント解析と抽出:多言語契約をクリーンで構造化されたMarkdownに変換してインデックス作成。
- 検索拡張生成(RAG):分類されたブロックをSearch Toolkitに供給し、引用付きの回答を生成。
- エージェントワークフロー:請求書処理エージェントに型付きフィールドとバウンディングボックスを提供し、フォームを自動入力。
- 信頼度ゲートパイプライン:低信頼度領域を人間の検証者にルーティングし、残りを自動承認。
- エンタープライズ検索:OCR 4をデータソースコンポーネントとして使用し、アーカイブ全体の取り込みとエンティティ抽出を実行。
初期ユーザーはOCR 4を適用して、請求書を構造化フィールドに変換し、企業アーカイブをデジタル化しています。他のユーザーは、テクニカルレポートからクリーンなテキストを抽出したり、エンタープライズ検索を強化したりしています。
Mistral公式リリースからの範囲に関する注意:OCR 4はドキュメント理解モデルであり、意思決定者ではありません。医療診断、法的判断、またはハイステークスの財務上の決定を意図したものではありません。また、安全性が重要なシステム、リアルタイム処理、または生のオーディオやビデオなどの非ドキュメント入力には適していません。
比較:純粋抽出 vs Document AI
OCR 4は単一のAPIエンドポイントの背後に出荷されます。すべてのリクエストは同じモデルを実行します。常に抽出されたコンテンツ、バウンディングボックス、ブロックタイプ、信頼度スコア、およびMarkdownを返します。異なるのは、その上にどれだけレイヤーを追加するかです。
| 機能 | 純粋抽出モード | Document AIモード(同一エンドポイント) | |------|----------------|----------------------------------------| | 出力 | Markdown、バウンディングボックス、ブロックタイプ、信頼度 | 定義したスキーマに従った構造化JSON | | 仕組み | 生のOCR応答 | OCR出力をmistral-small-2603に供給 | | 画像注釈 | 適用しない | スキーマに従って画像ごとにビジョン言語呼び出し | | カスタムプロンプト | なし | あり、解釈または要約をガイド | | 最適な用途 | パイプライン、エージェント、バッチ取り込み | ビジネスユーザー、パイロット、解析ロジック不要 | | 価格 | 1,000ページあたり4ドル(バッチ2ドル) | 1,000ページあたり5ドル | | セルフホスティング | エンタープライズ向けに利用可能 | エンタープライズ向けに利用可能 |
決定ルールは簡単です。生の抽出コンテンツが必要ですか?そのままOCR 4を使用します。出力をスキーマに再形成したり、ドメインフィールドを追加したりする必要がありますか?同じ呼び出しにDocument AIパラメータを追加します。
APIの使用
基本的な抽出は、ドキュメントURLを受け取り、構造化されたページを返します。include_blocks=Trueを設定して、型付きブロックとバウンディングボックスを取得します。
import os
from mistralai.client import Mistral
client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"
},
include_blocks=True, # 型付きブロック + バウンディングボックス
table_format="html", # None(インライン)、"markdown"、または "html"
include_image_base64=True
)応答は、pages配列を持つJSONオブジェクトです。各ページには、Markdown、画像、テーブル、ハイパーリンク、寸法、confidence_scoresが含まれます。人間によるレビューパイプラインをゲートするには、単語単位の信頼度を要求します。
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"},
confidence_scores_granularity="word" # または "page" で集計
)「word」設定は、ページごとおよびテーブルエントリごとにword_confidence_scores配列を追加します。大容量ジョブの場合、Mistralはページあたりのコストを半減させるバッチ推論サービスを推奨しています。
インタラクティブ出力エクスプローラー
以下の埋め込みは、OCR 4の構造化出力を視覚化します。サンプルドキュメントを切り替え、バウンディングボックスとブロックタイプをトグルし、信頼度ヒートマップをオンにします。MarkdownとJSONのタブは、2つの出力形状を並べて表示します。サンプルデータは説明用であり、ライブAPI呼び出しではありません。
Mistral OCR 4の発表、OCR 4モデルカード、OCRプロセッサードキュメントをご覧ください。また、Twitterでフォローしていただき、150k+ML SubRedditに参加し、ニュースレターを購読してください。Telegramをご利用ですか? Telegramでもご参加いただけます。
GitHubリポジトリ、Hugging Faceページ、製品リリース、ウェビナーなどのプロモーションでパートナーシップをご希望の場合は、お問い合わせください。
出典:Mistral OCR 4発表、OCR 4モデルカード、OCRプロセッサードキュメント。
この記事はMarkTechPostに最初に掲載されました。