2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

模型選擇在因果推斷中的關鍵作用：InferBERT框架內分類模型的藥效學比較分析

藥效學中區分因果不良藥物事件（ADE）與虛假相關性是一大挑戰。InferBERT框架結合了Transformer模型與Do-calculus，但其成功依賴於底層分類模型。本研究比較了XGBoost、ALBERT、BioBERT和Med-LLaMA在兩種基準上的表現，發現領域特定預訓練的BioBERT準確率最高，而大型語言模型Med-LLaMA表現不佳。結果表明，在計算藥效學中，投資於可管理的領域感知模型比單純擴展模型規模更有效。

來源arXiv Machine Learning作者: Csaba Kiss, Roland Molontay, Gabriele Pergola

在藥效學領域，區分因果不良藥物事件（ADE）與虛假相關性一直是核心挑戰。許多統計方法雖然能檢測到關聯，但無法確認因果關係。為此，研究人員開發了InferBERT框架，該框架將Transformer模型與Do-calculus相結合，旨在從文本中推斷因果關係。然而，InferBERT的性能高度依賴於其底層的分類模型，不同的模型可能導致截然不同的結果。為了探究模型選擇的影響，本研究系統評估了四種代表性模型：基於梯度提升樹的XGBoost（作為基線）、原始InferBERT使用的ALBERT（輕量級Transformer）、生物醫學領域預訓練的BioBERT以及醫療大語言模型Med-LLaMA。

研究團隊在兩個具有挑戰性的基準數據集上進行了實驗：鎮痛藥誘發的急性肝衰竭（AILF）和曲馬多相關死亡率（TRAM）。這兩個數據集涵蓋不同類型的藥物安全事件，能夠全面檢驗模型的泛化能力。實驗採用5折交叉驗證並重復20次，以確保結果的穩定性。評估指標包括準確率、預期校準誤差（ECE，用於衡量模型置信度與實際正確率的一致性）以及因果術語與傳統藥效學信號（PRR、ROR、EBGM）的Jaccard一致度。

結果令人矚目：BioBERT在兩個數據集上均取得了最高的準確率，顯著優於其他模型。相比之下，儘管Med-LLaMA擁有龐大的參數量並採用了參數高效微調技術，但其表現卻最差，甚至不如簡單的基線XGBoost。這一發現強有力地表明，領域特定的預訓練遠比模型規模更重要。此外，事後校準（通過等張迴歸）雖然改善了模型的校準誤差，但對準確率和因果發現的影響並不一致：有時提升，有時甚至帶來負面影響。BioBERT不僅準確率高，其識別出的因果術語與已知藥效學信號的吻合度也最高，進一步驗證了其可靠性。

該研究的結論對計算藥效學領域具有重要指導意義：單純追求模型規模擴大並非提升因果推斷能力的有效途徑。相反，投資於可管理、領域感知的模型（如BioBERT）能夠以更低的計算成本獲得更優的性能。未來研究應聚焦於優化領域特定預訓練策略，而不是盲目堆疊參數。