AI News HubLIVE
站内改写2 分で読了

最も賢いAIでも十分でないとき、Benchlingがどのようにエージェントを構築するか

生命科学向けR&DデータプラットフォームであるBenchlingは、2025年10月にエージェントを搭載したチャットインターフェース「Benchling AI」をリリースしました。AI責任者のNicholas Larus-Stone氏がLangChainのCEO Harrison Chaseと対談し、マルチモデルアーキテクチャ、プロダクショントレースのレビュー、検証可能な科学タスクの戦略など、科学分野でのエージェント構築の複雑さについて語りました。

Max Agencyポッドキャストの最新エピソードでは、BenchlingのAI責任者Nicholas Larus-Stone氏が、LangChainの共同創業者兼CEOであるHarrison Chase氏と共に、ライフサイエンス分野におけるエージェント構築の特有の課題について深く掘り下げました。Benchlingは2012年から運営されているR&Dデータプラットフォームで、ライフサイエンス企業が実験、サンプル、機器、分析を保存・管理するために利用しています。2025年10月、同社はBenchling AIを発表しました。これはエージェントを搭載したインテリジェンス層であり、チャットインターフェースを通じて科学者がデータの検索、実験の設計、レポート作成を行うのを支援します。

Larus-Stone氏は、自身が創業した分析スタートアップSphinx Bioの買収を通じてBenchlingに入社しました。彼は、コーディングエージェントとは異なり、科学ワークフローにおけるエージェントは検証可能性が低いタスクに対処する必要があるため、革新的なアプローチを採用していると指摘します。

マルチモデルアーキテクチャ

Benchlingは同一モデルを複数回実行する代わりに、異なるプロバイダのモデルを同じタスクに使用します。モデルファミリーによって異なるタイプの誤りを犯すため、このマルチモデルアプローチはより強力な品質指標を提供します。複数のモデルが一致した場合はデータ品質が良好であることを示し、不一致がある場合は通常エラーが存在します。Larus-Stone氏は「各モデルは少しずつ異なる誤りを犯します…異なるモデルプロバイダに問い合わせることで、はるかに優れたパフォーマンスが得られることがわかりました」と述べています。

プロダクショントレースのレビュー

科学研究の世界では、評価手法には限界があります。Benchlingはプロダクショントレースをレビューするための構造化アプローチに依存しています。毎週、交代制の「ファイアチーフ」が問題を特定し、毎週のテクノロジー運営ミーティングで議論します。外部シグナルとしては、ユーザーからの「いいね」と「よくないね」のフィードバックを活用しています。製品マネージャーやエンジニアは特定の機能のトレースを確認し、リリース後のユーザーの利用状況を把握します。

エージェントの実際の影響

Larus-Stone氏は、エージェントがワークフローを圧縮し、回答を得るために必要な実験回数を減らしていると指摘します。ステップ間のデッドタイムを削減することで、1日の節約が1週間の節約になることがよくあります。さらに、エージェントは科学者が事前に実験をより厳密に設計するのを支援し、結論に達するまでの実行回数を減らします。

その他の議論トピック

対談では、Benchlingがなぜ事前にクリーンなデータを取得するために多大な投資を行うのか、モデル間の回答を相互チェックして各モデルからより多くの価値を引き出す方法、プロダクショントレースに依存する理由と方法、AIが現在科学に実際に役立っている領域と依然として行き詰まっている領域、そしてなぜLLMの理解がソフトウェア工学よりも生物学に近いのかといったトピックが取り上げられました。Larus-Stone氏は、科学エージェントの構築には科学発見そのものと同様に実験的なアプローチが必要だと強調しました。

ポッドキャストでは、検証可能タスクと非検証可能タスクの違い、クリーンなベンチマークがない場合の評価方法、コンテキストエンジニアリング(SQL対ファイルベースのフレームワーク)、エージェントが自分自身のスキルを作成・更新するメモリ、科学者向けのユーザー教育についても深く議論されました。最後に、エージェントがいつ新しい疾患治療法を発見するのか、そしてなぜ生物学におけるファインチューニングがフロンティアモデルを超えていないのかについて議論しました。