AI News HubLIVE
サイト内リライト4 分で読了

Amazon Bedrock AgentCore を使用したタンパク質研究コパイロットの構築

この記事では、自然言語クエリの解析、タンパク質埋め込みのベクトル類似性検索、AI生成の科学サマリーを組み合わせた対話型タンパク質研究アシスタントの構築方法を紹介します。

ソースAWS Machine Learning Blog著者: Yuan Tian

タンパク質研究者は、何千ものペプチド配列を手動で検索して構造的に類似した候補を見つけるという時間のかかる課題に直面しています。このプロセスは遅く、エラーが発生しやすく、結果を解釈するには深い専門知識が必要です。タンパク質研究コパイロットを構築することで、研究者が大規模データセット内で構造的に類似したペプチドを検索する方法を変革できます。自然言語クエリ、自動埋め込み生成、AI駆動の結果要約を1つの対話型インターフェースで実現します。

この記事では、3つの機能を組み合わせた対話型タンパク質研究アシスタントの構築方法を紹介します。

  • 自然言語クエリの解析による構造化検索パラメータの抽出
  • 専用言語モデルを使用したタンパク質埋め込みのベクトル類似性検索
  • AI生成の科学サマリー

このシステムは、Strands Agents SDK を使用して1つのエージェント内で3つの専用ツールを調整し、Amazon Bedrock AgentCore にデプロイして本番サービスを提供し、ペプチド埋め込みを pgvector を備えた Amazon Aurora PostgreSQL-Compatible Edition に保存します。

前提条件

この記事を進めるには、以下が必要です。

  • Amazon Bedrock 基盤モデル(Anthropic Claude Sonnet 4.6)にアクセスできる AWS アカウント
  • Python 3.12 以降
  • 適切な認証情報が設定された AWS CLI
  • Amazon Bedrock、Amazon SageMaker AI、Amazon Aurora、Amazon ECS、AWS CodeBuild の IAM 権限
  • bedrock-agentcore-starter-toolkit のインストール(pip install bedrock-agentcore-starter-toolkit)
  • IEDB ウイルスエピトープデータセット

推定デプロイ時間:30〜45分。AWS の価格ページで Bedrock、SageMaker AI、Aurora Serverless v2、AWS Fargate のコスト見積もりを確認してください。

ソリューション概要

コパイロットはツール使用パターンに従い、1つの Strands エージェントが3つの専用ツールを調整して完全な研究ワークフローを処理します。研究者が自然言語クエリを送信すると、エージェントはそれを構造化パラメータに解析し、タンパク質埋め込みを使用して類似ペプチドを検索し、科学的コンテキストで結果を要約します。

アーキテクチャは5つのコンポーネントで構成されます。

  1. Streamlit フロントエンド:AWS Fargate 上で実行され、対話型インターフェースを提供します。クエリを AgentCore ランタイムに送信し、構造化形式(ダウンロード可能なテーブルを含む)で結果を表示します。
  2. Strands エージェント:単一の Amazon Bedrock AgentCore ランタイム内で実行され、ワークフローを調整します。エージェントは Bedrock Converse API を介して Anthropic Claude Sonnet 4.6 を使用し、@tool デコレータで定義された3つのツールにアクセスします。
  3. パーサーツール:専用の Strands エージェント(LLM-as-parser パターン)を使用して、自然言語クエリから構造化検索パラメータ(配列、種フィルター、結果制限)を抽出します。
  4. 検索ツール:ESM-C 300M を実行する Amazon SageMaker AI serverless エンドポイントを介してタンパク質埋め込みを生成し、pgvector を備えた Amazon Aurora PostgreSQL に対してコサイン類似度検索を実行します。
  5. サマライザーツール:別の専用 Strands エージェントを使用して検索結果を分析し、簡潔な科学サマリーとさらなる調査の提案を生成します。

このシングルランタイム、マルチツール設計により、デプロイをシンプルに保ちながら、明確な関心の分離を維持します。各ツールは個別の機能をカプセル化し、オーケストレーターエージェントがユーザークエリに基づいてそれらをいつどのように呼び出すかを決定します。

ESM-C 300M によるタンパク質埋め込み

類似性検索の中核は、EvolutionaryScale のタンパク質言語モデル ESM-C 300M です。これはアミノ酸配列の構造的および機能的特性を捉えた960次元の埋め込みを生成します。類似した生物学的機能を持つ2つのペプチドはベクトル空間で近い埋め込みを生成するため、配列アライメントなしで類似性検索が可能になります。

ESM-C 300M は Amazon SageMaker AI serverless エンドポイントとしてデプロイされ、アイドル時にはゼロにスケールダウンし、呼び出し間のコストは発生しません。モデルの重みはデプロイメントアーティファクトにバンドルされ、推論時に HuggingFace からダウンロードする必要がなくなります。これはコールドスタートレイテンシが重要な serverless エンドポイントにとって重要です。

推論ハンドラーはモデルアーキテクチャを直接構築し、事前パッケージ化された重みをロードします。予測関数はタンパク質配列を受け取り、エンコードして平均プールされた埋め込みを返します。エンドポイントは6144 MB のメモリと最大同時実行数5の serverless 構成でデプロイされ、PyTorch 2.6.0 CPU 推論コンテナを使用します。

Aurora PostgreSQL と pgvector を使用したベクトル検索

ペプチド埋め込みは、pgvector 拡張機能を備えた Amazon Aurora PostgreSQL-Compatible Edition Serverless v2 に保存されます。データベーススキーマはシンプルです。peptides テーブルには、id、sequence、embedding(960次元ベクトル)、properties(JSONB)、created_at フィールドが含まれます。embedding 列に ivfflat インデックスを作成してコサイン類似度検索を高速化します。

properties JSONB 列には生物学的メタデータ(種、起源生物、起源分子、エピトープ位置)が保存され、ベクトルとメタデータフィルタリングの組み合わせが可能になります。データロードパイプラインは IEDB ウイルスエピトープデータセットから読み取り、SageMaker AI エンドポイントを介して各ペプチド配列の埋め込みを生成し、Amazon RDS Data API を使用してデータベースに挿入します。

データベースアクセスは Amazon RDS Data API を介して行われるため、エージェントランタイムはデータベースと直接ネットワーク接続する必要がなく、HTTPS 経由で通信するため、AgentCore デプロイのネットワーク要件が簡素化されます。

Strands Agents SDK を使用したエージェントの構築

Strands Agents SDK は、ツールを使用するエージェントを構築するためのクリーンな抽象化を提供します。各ツールは @tool デコレータで装飾された Python 関数であり、エージェントは関数のドキュメント文字列と型ヒントから LLM 用のツール説明を自動生成します。

ツールの定義は以下の通りです。

  • パーサーツール:専用の Strands エージェントを構造化出力抽出器として委任します。
  • 検索ツール:SageMaker AI 埋め込み生成と pgvector 類似度検索を組み合わせます。
  • サマライザーツール:別の専用 Strands エージェントを使用して科学的分析を行います。

オーケストレーターエージェントはユーザークエリを受け取り、どのツールをどの順序で呼び出すかを決定します。各ユーザークエリに対して、ワークフローはまず parse_peptide_query を呼び出して配列とパラメータを抽出し、次に search_similar_peptides を呼び出して検索し、最後に summarize_results を呼び出して要約を生成します。

デプロイ手順

デプロイには、AWS CDK または CloudFormation テンプレートを使用したインフラストラクチャのセットアップが含まれます。VPC、データベース、SageMaker エンドポイント、ECS サービスなどが含まれます。この記事では段階的な手順を提供していますが、詳細なデプロイガイドについては完全なブログ記事を参照することをお勧めします。

最終的に、自然言語の解析、カスタム ML モデルのデプロイ、ベクトル検索とメタデータフィルタリングの組み合わせ、および複数の専用ツールの調整を実証するエンドツーエンドのエージェントアプリケーションが構築されます。