Mistral OCR 4 発表:文書理解の新境地
Mistral OCR 4 は、バウンディングボックス、ブロック分類、信頼度スコアを導入。人間による評価テストで全競合を上回り(勝率72%)、170言語をサポート、単一コンテナでのセルフホストが可能。
Mistral AIは本日、文書理解モデルの最新版「Mistral OCR 4」をリリースしました。従来モデルがテキストとテーブルの抽出に重点を置いていたのに対し、OCR 4は文書の構造化表現を返します。各ブロックはバウンディングボックスで位置が特定され、タイトル、表、数式、署名などのタイプに分類され、ページ単位・単語単位の信頼度スコアが付与されます。これにより、下流システムは文書の内容だけでなく、各要素の位置と役割、モデルの確信度を利用できます。
ベンチマークでは、OCR 4が圧倒的なパフォーマンスを示しました。600以上のドキュメント(12言語以上)を使用した人間による評価では、独立した評価者がOCR 4を競合よりも72%の確率で選択。公開ベンチマークOlmOCRBenchでは85.20点でトップ、内部の多言語評価では全8言語グループ(英語、西欧、東欧、中東、中国語、東アジア、東南アジア、希少言語)で首位を獲得しました。同社は、自動ベンチマークには正解ラベルの誤りや数式表記の違いなどスコアリングのアーティファクトが存在することを指摘し、実際の文書で評価することを推奨しています。
OCR 4は170言語(10の言語グループ)をサポートし、特に希少言語や低リソース言語で競合を大きく引き離します。モデルはコンパクトで単一コンテナにデプロイ可能なため、データ主権やコンプライアンス要件がある組織でも自社インフラで実行でき、コスト効率の高いバッチ処理も可能です。API価格は1,000ページあたり4ドル、バッチAPIでは2ドルに半減します。Document AI(構造化JSONのレイヤーを追加)は1,000ページあたり5ドルです。
OCR 4はMistral Search Toolkitにも統合されており、RAGやエンタープライズ検索のための構造化入力を提供します。初期ユーザーは、請求書の構造化データ化、企業アーカイブのデジタル化、技術レポートからのテキスト抽出などに活用しています。Mistralは、OCR 4は文書理解モデルであり、医療診断や法律判断などの意思決定には使用すべきでないと注意喚起しています。
開発者はMistral Studio、Amazon SageMaker、Microsoft Foundry、今後はSnowflake Parse Documentを通じてOCR 4を利用できます。Document AIオプションでは、同一エンドポイントにJSONスキーマやカスタムプロンプトを渡すことで、OCR出力を特定の形式に変換できます。