2026-05-15 11:35 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

KYCにおけるOCR：標準テキスト抽出が不十分な理由

本記事では、KYC（顧客確認）ワークフローにおける標準OCR技術の限界を考察します。実際の身分証明書は摩耗、傾いた写真、ホログラム、非ラテン文字などに対応する必要があり、標準OCRでは不十分です。代理型OCR（LlamaParseなど）は、レイアウト認識、モデルオーケストレーション、自己修正ループにより90-95%以上のストレートスルー処理を実現し、銀行、保険、暗号資産取引所などの業界におけるコンプライアンス要件に対応します。

ソースLlamaIndex Blog

記事インテリジェンス

エンジニア中級

要点

標準OCRは摩耗や歪みのある実際の身分証明書を正確に処理できない。
フィールドレベルの精度は99.9%必要であり、エラーはコンプライアンスリスクや顧客離れを引き起こす。
代理型OCRはレイアウト理解と専用モデルにより、新しい書式にも適応可能で、自己修正で誤りを減らす。
銀行、保険、暗号資産など業界ごとに異なる書類と規制要件が存在する。

重要な理由

このニュースが重要なのは、標準OCRは摩耗や歪みのある実際の身分証明書を正確に処理できないためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

KYC（顧客確認）ワークフローにおいて、光学文字認識（OCR）は身分証明書の画像を構造化データに変換する重要なステップです。しかし、標準的なOCR技術は、白い紙に印刷されたクリーンなテキスト向けに設計されており、実際の身分証明書とは大きく異なります。実際の書類は摩耗していたり、斜めから撮影されていたり、セキュリティホログラムで覆われていたり、非ラテン文字を含んでいることが多く、標準OCRではエラーが発生します。AML（アンチマネーロンダリング）規制には誤差の許容範囲はなく、1つの誤ったフィールドが偽陽性アラート、正当な顧客の拒否、または不正通過の原因となります。金融機関は標準OCRの上に高価な書類検証システムを構築していますが、現実の書類を確実に処理できていません。

標準OCRの限界はそのアーキテクチャに起因します。すべての文書要素に同じモデルを適用し、文書構造を理解しません。例えば、パスポートの機械読取ゾーン（MRZ）はチェックサム検証用の専用パーサーを必要としますが、標準OCRは文字を抽出するだけで構造を無視します。身分証明書にはパスポート、運転免許証、国民ID、公共料金請求書など、さまざまな種類があり、それぞれ異なるレイアウトとセキュリティ機能を持ちます。機械学習モデルはベースライン精度を向上させますが、アーキテクチャの問題は解決できず、新しい書式には再トレーニングが必要です。

代理型OCR（LlamaParseなど）は異なるアプローチを採用します。まず、レイアウト認識コンピュータビジョンで文書をセグメント化し、MRZ領域、写真フィールド、住所ブロック、発行機関のスタンプを識別します。その後、各要素に最適なモデルを割り当てます。例えば、MRZ専用パーサーはチェックサムを検証し、ビジョンモデルはスタンプや手書きを処理し、構造化抽出器は表形式データを扱います。このオーケストレーションにより、新しい書式変更にも再トレーニングなしで適応できます。さらに、自己修正ループが既知の幻覚パターンを捕捉し、誤ったデータがコンプライアンスシステムに渡る前にフラグを立てます。

コンプライアンスチームにとって、信頼スコアと引用により、人間によるレビュー（HITL）を低信頼度のフィールドに限定でき、ストレートスルー処理率が向上します。銀行やフィンテックでは、リモート口座開設の信頼性が重要です。保険や医療ではHIPAAコンプライアンスが加わり、患者情報の誤りは安全リスクにつながります。暗号資産取引所はグローバルなユーザーベースと多様な書式に対応する必要があります。FATFガイダンス、EUのAMLA、米国FinCENの実質的所有権要件により、厳格なデータ精度が求められており、代理型OCRはこの圧力に対応するソリューションです。