2026-06-30 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 15:55 UTC+8

用於生物醫學工具宇宙的治療推理AI代理

研究人員推出了ATHENA-R1，一種基於強化學習的AI代理，能夠在212種生物醫學工具中自主進行治療推理。在多項基準測試中，其準確率顯著超過GPT-5，並得到專家和醫生的積極評價。

來源arXiv AI作者: Shanghua Gao, Ayush Noori, Richard Zhu, Curtis Ginder, Zhenglun Kong, Xiaorui Su, Justin Kauffman, Benjamin S. Glicksberg, Joshua Lampert, Ankit Sakhuja, Ashwin Sawant, ATHENA-R1 Evaluation Consortium, David A. Clifton, Noa Dagan, Ran Balicer, Marinka Zitnik

治療推理是臨床決策的核心，它需要綜合疾病背景、合併症、藥物相互作用、禁忌症以及不斷更新的生物醫學知識，以選擇最合適的治療方案。這個過程本質上是迭代的：候選方案需要在多種約束條件下權衡，隨著新證據的出現不斷修正，並始終基於可驗證的來源。然而由於需要先知道尋找哪些證據才能得出結論，治療推理長期以來對人工智慧而言是一項艱鉅的挑戰。近日，上海科技大學等機構的研究人員釋出了ATHENA-R1——一種專門用於治療推理的AI代理，它透過強化學習在一個包含212種生物醫學工具的宇宙中進行訓練，覆蓋了自1939年以來所有美國FDA批准的藥物。

ATHENA-R1的工作流程模擬了人類的迭代推理過程：在每一步，它自動識別缺失的關鍵資訊，從工具宇宙中選擇並執行相關的工具（例如藥物資料庫、基因知識庫或臨床試驗資源），然後將新獲得的證據整合到推理鏈中。為了在不依賴人工標註的推理軌跡的情況下訓練這一代理，研究團隊設計了一個雙層自學習框架。首先，透過多智慧體系統自動構建工具、任務以及完整的推理軌跡，用於監督微調階段；隨後，利用強化學習結合科學反饋訊號來獎勵推理的質量——包括證據收集的全面性、工具使用的合理性和邏輯的非冗餘性。這種雙重機制使得ATHENA-R1能夠自主學習複雜的治療推理策略。

在五個基準測試中，涵蓋3168項藥物推理任務和456個真實患者治療案例，ATHENA-R1展現了卓越的效能。在開放式藥物推理任務中，其準確率達到94.7%，在治療推理任務中達到82.9%，分別比GPT-5高出17.8和10.7個百分點。此外，來自28個罕見病組織的專家進行了盲評，在所有評估標準（包括證據準確性、推理透明度和臨床實用性）上均更偏好ATHENA-R1。針對複雜住院心血管和感染性疾病病例，執業醫師的評價也相當積極。研究團隊還利用ATHENA-R1生成了藥物不良事件假設，並在包含540萬患者的電子健康記錄中進行了驗證。調整後的優勢比在1.48到1.84之間，而在陰性對照中未觀察到升高，說明這些假設具有統計顯著性。

ATHENA-R1的成功表明，透過強化學習可以將治療推理重構為一個可學習的迭代證據收集過程。這一進展不僅為臨床決策支援系統提供了新的可能，還展示了大語言模型在專業領域透過工具使用和強化學習實現突破的潛力。研究團隊已經公開了專案頁面和程式碼，以便其他研究者復現和擴充套件這項工作。未來，這種正規化有望推廣到其他需要複雜推理的醫學領域，甚至更廣泛的科學推理場景。