AI News HubLIVE
サイト内リライト4 分で読了

Claude と Nova 2 Lite を組み合わせたコスト最適化されたドキュメント処理

この記事では、Amazon Nova 2 Lite と Anthropic の Claude Sonnet 4.6 を組み合わせて、スキャンされた文書(イヤーブックなど)を大規模にデジタル化するためのコスト効率の高いパイプラインを構築する方法を紹介します。2つのモデルが役割分担し、Nova 2 Lite がネイティブのマルチモーダル抽出(写真検出、名前抽出と座標)を担当し、Claude が空間推論で名前と顔をマッチングします。336ページのテストでは、3,122の名前と顔の関連付けが得られ、93%が0.95以上の信頼度で、ページあたりのコストは約3分の2削減されました。

ソースAWS Machine Learning Blog著者: Sanghwa Na

スキャンされたイヤーブックの1ページには、176の印刷された名前、4枚の肖像写真、そしてそれらをリンクする機械可読な構造は一切含まれていません。このようなページをデジタル化するには、バウンディングボックス付きの信頼性の高い写真検出と正確な名前抽出、さらにページレイアウトに基づいてどの名前がどの顔に対応するかを判断する方法が必要です。

この記事では、Amazon Nova 2 Lite と Anthropic の Claude Sonnet 4.6 をペアリングすることで、スキャンされた文書を大規模にデジタル化するための効率的なソリューションを提供する方法を紹介します。Amazon Bedrock 上に2モデルパイプラインを構築し、スキャンされたイヤーブックページをデジタル化しました。Amazon Nova 2 Lite は、1回の呼び出しでネイティブのマルチモーダル抽出(写真の検出、座標付きの可視名前の抽出、ページレベルのメタデータの返却)を処理します。次に Claude Sonnet 4.6 がページレイアウトに基づく空間推論を実行し、名前を顔にマッチングします。

このパイプラインを336ページのスキャンされたイヤーブックページに対して実行し、3,122の名前と顔の関連付けを生成しました。そのうち93%が0.95以上の信頼度スコアを示しました。この2モデルアプローチのページあたりのコストは、タスク全体を1つのビジョン言語モデルに送信する単一モデルの代替案よりも約3分の2低くなっています。詳細な内訳は「コストの考慮事項」セクションを参照してください。

ソリューション概要

パイプラインは2つのステージで構成され、各ステージでは特定のタスクに最適化された異なるモデルを使用します。

まず Amazon Nova 2 Lite が実行されます。テキストと画像をネイティブに処理できるため、1回の Converse API 呼び出しで3つの出力が得られます:バウンディングボックスと分類付きの検出写真、ページ上の可視名前とそのおおよその位置、ページタイトルやカテゴリなどのページレベルメタデータです。このタスクでは reasoning レベルを LOW に設定しましたが、336ページ全体のテストでは、LOW、MEDIUM、HIGH の間で構造化抽出の精度に有意差はなく、LOW が最も安価です。Nova は reasoning_config フィールドでこの設定を公開し、Claude はステップ2で別の thinking フィールドを使用するため、2つのモデルは異なる名前で推論を制御します。

Nova 2 Lite にページ上のすべての OCR トークンではなく名前だけを要求することが、最初のステージのコストを低く抑える鍵です。ダウンストリームの空間推論ステップでは、クラス名簿やイベント説明の全文は必要なく、写真の近くにある名前だけが必要です。Nova の出力を名前に制限することで、出力トークンコストはページあたり約1,000トークンに抑えられ、完全なOCRパスで発生する推定4,500トークンと比較して大幅に削減されます。

Claude Sonnet 4.6 は、空間推論のためにステージ2でのみ登場します。Nova からの名前(位置付き)と写真のバウンディングボックスを与えられ、Claude はどの名前がどの顔に対応するかを決定します。このステップでは、イヤーブックのレイアウトがページごとに異なるため、レイアウトのばらつきを処理する必要があります。キャプションは写真の上または下に表示される場合があり、一部のページではポートレートグリッドとグループショットが混在しています。Claude のアダプティブ思考は、レイアウトタイプごとに追加のプロンプトエンジニアリングを必要とせずにこのばらつきを処理します。

このソリューションでは、Nova 2 Lite が高ボリュームの抽出作業をネイティブに1回の呼び出しで処理し、Claude は空間推論のためにページごとに1回呼び出されます。

Nova 2 Lite の固定画像料金:スケールでの予測可能なコスト

Amazon Nova 2 Lite の画像入力の課金方法の最近の変更により、ページあたりのコストがスケールで予測可能になりました。これは数十万ページを処理するワークロードにとって重要です。

固定画像料金:Amazon Nova 2 Lite は、解像度やファイルサイズに関係なく、画像およびドキュメントページ入力を固定の画像あたり料金で請求します。

この変更はドキュメント処理パイプラインにとって重要です。以前は、画像トークンコストが解像度によって変動するため、代表的なサンプルで概念実証を実行しない限り、ページあたりのコストを予測することは困難でした。固定課金により、Nova 2 Lite が処理するすべての画像は、解像度に関係なく同じ画像あたり料金で請求されます。

プロンプトと出力を含む完全なページ抽出では、ページあたりのコストは約0.0027ドルと見積もられます(公開料金に基づく)。イヤーブックスケールのワークロード(年間数十万ページ)では、この固定料金によりコスト予測が簡単になります。画像入力コストはページ数に比例して線形に増加し、ページ解像度に依存しないためです。

空間推論のためのアダプティブ思考

Amazon Bedrock 上の Claude はアダプティブ思考をサポートしており、モデルは入力の複雑さに基づいて内部推論の量を決定します。Converse API の thinking 設定で type を adaptive に設定することで有効化できます。336ページの実行では、Claude はすべてのページで拡張推論を使用し、推論トレースは544〜1,658文字の範囲でした。単純なページでも、イヤーブックのレイアウトが完全に均一であることはほとんどないため、ある程度の空間分析の恩恵を受けました。推論トレースは、Claude が列の配置、名前位置と顔位置の間の垂直オフセットを処理し、グループショットがページに表示される場合はキャプションの近接性をチェックしていることを示しています。この種の構造化された空間タスクでは、アダプティブ思考は手動調整なしでページごとに適切な推論量を提供します。

実装手順

完全なソースコード、サンプル画像、Jupyter Notebook は AWS Samples GitHub リポジトリで入手できます。

前提条件:Amazon Bedrock にアクセスできる AWS アカウント(Amazon Nova 2 Lite と Claude Sonnet 4.6 の両方が利用可能なリージョン)、両方のモデルのモデルアクセスが有効、Bedrock を呼び出す IAM 権限、Python 3.10+ と boto3 SDK、スキャンされたページ画像(JPEGまたはPNG)。

ステップ1:Amazon Nova 2 Lite による写真検出と名前抽出:スキャンされたページを Nova に送信し、検出された写真(バウンディングボックスと分類付き)と可視名前(ページ上の位置付き)を要求するプロンプトを含めます。Nova のネイティブマルチモーダル理解により、1回の Converse 呼び出しで両方が返されます。Nova は写真と名前の両方に0〜1000の座標スケールでバウンディングボックスを返すため、そのままステップ2に渡せます。

ステップ2:Claude による名前と顔のマッチング:Nova からの名前位置と写真バウンディングボックスを Claude に渡して空間推論を実行します。両者は同じ座標空間を使用するため、正規化は不要です。Claude は、名前、顔インデックス、信頼度、推論を含む関連付けのリストを出力します。

この2モデルパイプラインは、コスト効率が高く、スケーラブルで正確な文書デジタル化ソリューションを提供し、同様のレイアウト集約型ドキュメント処理タスクに特に適しています。