Mistral OCR 4:文書インテリジェンスのための最新OCR
Mistral は OCR 4 をリリース。バウンディングボックス、ブロック分類、信頼度スコアを提供し、170言語に対応。人間による評価で全競合を上回り、公開ベンチマークで最高スコアを達成。価格は1000ページあたり4ドル、セルフホスティング可能。
Mistral は本日、文書理解モデルの最新版「Mistral OCR 4」をリリースしました。従来のOCRがテキストのみを抽出するのに対し、OCR 4は各テキストブロックのバウンディングボックス、ブロックタイプ(見出し、表、数式、署名など)、そしてページ単位・単語単位の信頼度スコアを含む構造化された出力を提供します。これにより、下流システムは文書の「内容」だけでなく、各要素の位置、役割、モデルの確信度を把握でき、検索拡張生成(RAG)、エージェント、ワークフロー自動化のための信頼性の高い入力が可能になります。
性能面では大きな進歩を遂げています。600以上の文書、12以上の言語を用いた人間による比較評価では、独立した評価者がOCR 4を選好する割合が平均72%に達し、主要なOCRおよび文書AIシステムを上回りました。公開ベンチマークOlmOCRBenchでは最高スコア85.20を記録し、内部の多言語評価Crawl Multilingualでは0.98のスコアで全言語グループで首位を獲得しました。ただし、同社はベンチマークには既知の限界があることも指摘しています。例えば、正解データ自体の誤り、等価な数式表記の文字列比較による不一致、マルチカラム文書の読取順序の仮定などが原因で、実際には正しい出力が誤りと判定されるケースが多く見られます。そのため、これらの数値は方向性を示すものとして捉え、実際の文書での評価を推奨しています。
言語カバレッジは170言語、10語族に及び、特にヒンディー語、日本語、グルジア語、ベンガル語、アルメニア語などの低リソース言語で他システムが性能を落とす中でも高い精度を維持します。対応フォーマットはPDF、DOC、PPT、OpenDocumentなどの一般的なエンタープライズ形式で、モデルはコンパクトなため単一コンテナでのデプロイが可能です。これにより、完全なセルフホスティングが実現し、データ主権やコンプライアンス要件を持つ組織でも自社インフラ内で文書データを保持できます。
料金はAPI利用で1000ページあたり4ドル、Batch APIを利用すると50%割引で2ドルとなります。構造化出力が必要な場合は、Document AI(OCR 4ベース)が1000ページあたり5ドルで提供され、JSONスキーマを渡すことで自動的に指定形式のデータを生成できます。また、カスタムプロンプトや画像アノテーション機能も利用可能です。
OCR 4はMistral Studio、Amazon SageMaker、Microsoft FoundryでAPI提供されており、近日中にSnowflake Parse Documentでも利用可能になります。MicrosoftのAIエコシステムパートナーシップ担当バイスプレジデントKimmi Grewal氏は、「Mistral Document AIとOCR 4がMicrosoft Foundryで利用可能になったことは、パートナーシップにおける重要なマイルストーンです」と述べています。初期ユーザーは請求書の構造化、企業アーカイブのデジタル化、技術レポートからのテキスト抽出、エンタープライズ検索などに活用しています。
なお、OCR 4は文書理解モデルであり、医療診断、法律アドバイス、高リスクな金融判断、安全重要システムなどへの使用は想定されていません。開発者は、純粋なテキスト抽出が必要な場合はOCR 4 APIをそのまま使い、構造化が必要な場合はDocument AIのパラメータを追加することで、同じAPI呼び出しで両方を取得できます。