信頼できるエージェント型AIシステムの構築
本稿では、バイエルAGとThoughtworksが共同開発した前臨床情報センター(PRINCE)プラットフォームを紹介する。PRINCEは、エージェント型RAGとText-to-SQLを活用して数十年分の安全性試験報告書を統合し、キーワード検索から複雑な質問に答え規制文書を作成するインテリジェントな研究アシスタントへと進化した。コンテキストエンジニアリングとハーネスエンジニアリングの観点から重要なエンジニアリング上の決定を考察し、信頼、透明性、ヒューマン・イン・ザ・ループの統合を重視している。
信頼できるエージェント型AIシステムの構築は、特に製薬業界のようにデータ集約的で正確性が求められる分野では複雑な工学的課題です。バイエルAGとThoughtworksが共同開発した前臨床情報センター(PRINCE)プラットフォームは、この課題に対する注目すべき解決策を提供します。このプラットフォームは、もともと散在する前臨床研究データを統合するために設計されました。これらのデータは多くの場合、構造化された研究メタデータと数十年分の非構造化PDFレポートを含む複数のサイロ化されたシステムに保存されています。
PRINCEの進化は、検索、質問、実行の3つの段階を経ています。検索段階では、統一ポータルを通じて数千の非臨床研究レポートを統合し、主に構造化メタデータを利用した高度なフィルタリング機能を提供しました。研究者はキーワードとメタデータのフィルターで関連レポートを素早く見つけられるようになりましたが、複雑な質問には対応できませんでした。その後、生成AI、特に検索拡張生成(RAG)の登場により、PRINCEは質問段階に移行し、研究者が自然言語で質問し、非構造化データから直接洞察を得られるようになりました。ベクター化されたレポートをOpenSearchに保存し、システムは最も関連性の高い情報を検索し、LLMと組み合わせて文脈に富んだ回答を生成します。現在の実行段階では、PRINCEはマルチエージェントシステムを統合して能動的な研究アシスタントとなり、複雑なクエリ処理、ワークフローのオーケストレーション、規制文書のドラフト作成をサポートしています。
システムの核となるアーキテクチャはLangGraphとFastAPIに基づいており、コンテキストエンジニアリングとハーネスエンジニアリングを活用して情報の流れとモデル管理を設計しています。コンテキストエンジニアリングは、各モデルが受信する情報、除外する情報、および調査、振り返り、作成などの専門的なステップ間で情報がどのように移動するかを決定します。例えば、研究者エージェントはデータベースやベクターストアからデータを取得し、振り返りエージェントはデータの完全性と正確性を検証し、作成エージェントはすべての情報を統合して最終回答を生成します。ハーネスエンジニアリングは、オーケストレーション、ツールの境界、状態の永続化、再試行、フォールバック、検証、振り返りループ、可観測性、人間によるレビューなど、モデルを囲むフレームワークを構築します。各ステップの状態はLangGraphのチェックポイントを介してPostgreSQLに永続化され、障害発生時には中断箇所から再開できます。
信頼性を確保するために、システムは多層の回復力メカニズムを設計しています。特定のLLMが失敗した場合、システムは自動的にリクエストを再試行し、複数回の試行後に代替モデルまたはプラットフォームにフォールバックします。再試行は個々のLLM呼び出しレベルと論理ノードレベルの両方で実装され、一時的な障害から迅速に回復できます。さらに、エージェントはエラーコンテキストを受け取り、計画を調整したり代替アクションを取ったりできます。例えば、検索ステップが失敗した場合、エージェントは異なるクエリ戦略やデータソースを試すことができます。
信頼はシステム設計の中核原則です。PRINCEは透明性、説明可能性、ヒューマン・イン・ザ・ループの統合を通じて信頼を構築します。システムはユーザーに情報源と推論プロセスを表示し、どのドキュメントを検索したか、モデルの思考チェーン、回答の生成方法を示します。規制文書のドラフト作成などの重要な決定ポイントでは、人間によるレビューを導入し、出力が規制に準拠していることを確認します。評価と監視の面では、RAGAS評価フレームワークを使用した日常的なトラフィック評価と、Langfuseを使用した詳細なトレースとデバッグを行っています。評価指標には回答の関連性、正確性、完全性が含まれ、毎日自動実行され、問題の早期発見と修正を可能にします。
PRINCEプラットフォームは、製薬業界におけるAIの変革の可能性を示しており、ガバナンスとコンプライアンスを確保しながら、データアクセシビリティと研究効率を大幅に向上させています。検索から質問、実行への進化を通じて、PRINCEは前臨床研究に強力なツールを提供し、データ駆動型の意思決定を加速し、不要な実験を減らし、最終的により安全で効果的な治療法の開発を加速することを目指しています。バイエルの経験は、慎重なエンジニアリングと反復的な改善により、自律型AIシステムがリスクの高い領域でも信頼性と信頼性を持って展開できることを示しています。