AI News HubLIVE
サイト内リライト1 分で読了

Amazon Novaモデルを微調整して電子メールデータを正確に抽出

Amazon SageMaker AIを使用してAmazon Novaモデルを微調整することで、幻覚やコストの問題を解決し、最大94.77%の抽出精度と50%のコスト削減を実現する方法を紹介します。

ソースAWS Machine Learning Blog著者: Le Vy

電子商取引分野では、毎日数百万通の電子メールから構造化データを抽出することは大きな課題です。Parcel Performは、従来のモデルで幻覚、類似フィールドの混同、高額なトークンコストなどの問題に直面していました。AWS生成系AIイノベーションセンターとの協力により、Amazon SageMaker AIを使用してAmazon Novaモデルを微調整し、最大94.77%の抽出精度と50%のコスト削減を達成しました。

ソリューションの核は、低ランク適応(LoRA)を用いたパラメータ効率的な微調整(PEFT)です。限られた訓練データでも効果的で、計算効率も維持されます。実験では1,300サンプルと4,900サンプルのデータセットを使用し、データ量増加による性能向上を確認しました。微調整後のモデルは、注文番号と追跡番号など紛らわしいフィールドを正確に区別します。

データ準備はAmazon Bedrock会話形式に従い、メール内容を入力、抽出結果を出力とします。データをAmazon S3にアップロード後、SageMaker AIで微調整ジョブを作成し、適切なハイパーパラメータ(最大長、グローバルバッチサイズ、学習率など)を設定します。訓練完了後、モデルをAmazon Bedrockにデプロイし、従量課金で推論を実行します。評価では、微調整によりすべてのモデルで精度が5.6~16.6パーセントポイント向上し、小型のNova Microが94.77%の最高精度を達成しました。推論レイテンシは約32%削減、コストは約50%削減されました。

結論として、Amazon SageMaker AIによるAmazon Novaモデルの微調整は、電子メールデータ抽出の課題を解決する効率的で経済的な方法です。限られたラベル付きデータでも顕著な精度向上が得られ、タスク固有の最適化がベースモデルのサイズ差を補えることを示しています。