MARD: ミラー拡張推論蒸留によるメカニズムレベルの薬物間相互作用予測
本論文では、メカニズムレベルの薬物間相互作用(DDI)予測のための再現可能なラベリング・評価プロトコルを提案する。7ファミリー147サブタイプの分類法とリークセーフなコールドスプリット戦略を特徴とする。また、シングルトークンKLダイバージェンス、PRM加重DPO、メカニズム認識検索チャネルという3つの訓練革新を組み合わせたMARD-7Bモデルを開発。2026年4月のDrugBankリリースにおいて、MARD-7Bは32システム中で薬物対の新規性下でも精度を維持した唯一のシステムであり、最良ベースラインを13.9ポイント、GPT-4oを6.7ポイント上回り、コストはフロンティアAPIの約1%である。反記憶化シグネチャは、モデルが稀な薬物でも精度を向上させることを示し、その利得は薬物頻度の記憶ではなく構造化された薬理学的推論に由来することを示唆している。
近年、薬物間相互作用(DDI)予測は精密医療や医薬品安全性の分野で重要性を増している。しかし、従来のDDI予測手法は二元的な相互作用の有無を予測するに留まり、どの酵素や薬力学的軸が関与するか、相互作用の方向、およびその根拠といったメカニズムレベルの情報を提供できなかった。この課題に対処するため、最新の研究ではMARD(Mirror-Augmented Reasoning Distillation)というフレームワークを提案し、メカニズムレベルのDDI予測を実現している。
研究チームはまず、再現可能なラベリングと評価のプロトコルを確立した。このプロトコルは、7つのファミリーと147のサブタイプからなる構造化された分類法、リークセーフなコールドスプリット戦略、および平坦な相互作用分類を超えた薬理学的予測を評価するための監査可能な推論メトリクスで構成されている。これらの設計は、メカニズムレベルのDDI予測の標準化されたベンチマークを提供する。
このプロトコルに基づき、研究者らは70億パラメータの推論モデルMARD-7Bを開発した。モデルの訓練には3つの革新的な手法が組み合わされている。第一に、方向タグ(例えば、どの薬物がどの酵素を阻害または誘導するか)を予測するためのシングルトークンKLダイバージェンス損失関数。第二に、プログラム的に生成されたハードネガティブサンプルを用いた損失ごとのPRM加重DPO(直接選好最適化)。第三に、リークセーフなメカニズム認識検索チャネルであり、推論中に関連する薬理学的知識を検索できる。注目すべき点として、プロセス報酬ステップのラベルはDrugBankの構造化フィールドに対して自動的に検証可能であり、人間や大規模言語モデル(LLM)の判断を必要としないため、ラベリングコストを大幅に削減できる。
2026年4月のDrugBankリリースにおいて、MARD-7Bは32システムの比較評価で卓越した性能を示した。薬物対の新規性(訓練中に未見の薬物組み合わせ)に対しても精度を維持した唯一のシステムであり、最良のベースラインを13.9パーセントポイント、GPT-4oを6.7パーセントポイント上回り、その推論コストはフロンティアAPIの約1%に過ぎなかった。さらなる分析では、反記憶化シグネチャが確認された。すなわち、モデルは稀な薬物に対してむしろ精度が向上しており、その性能向上は薬物頻度の記憶ではなく構造化された薬理学的推論に由来することが示唆された。
研究チームは、コーパス、DDI-PRM、検索インデックス、および訓練コードを公開しており、この分野のさらなる研究と応用を促進する。本研究は、メカニズムレベルのDDI予測に新しいパラダイムをもたらし、強力なベンチマークモデルと再現可能な評価手法を提供することで、薬物相互作用研究の進展に貢献するものである。