用于生物医学工具宇宙的治疗推理AI代理
研究人员推出了ATHENA-R1,一种基于强化学习的AI代理,能够在212种生物医学工具中自主进行治疗推理。在多项基准测试中,其准确率显著超过GPT-5,并得到专家和医生的积极评价。
治疗推理是临床决策的核心,它需要综合疾病背景、合并症、药物相互作用、禁忌症以及不断更新的生物医学知识,以选择最合适的治疗方案。这个过程本质上是迭代的:候选方案需要在多种约束条件下权衡,随着新证据的出现不断修正,并始终基于可验证的来源。然而由于需要先知道寻找哪些证据才能得出结论,治疗推理长期以来对人工智能而言是一项艰巨的挑战。近日,上海科技大学等机构的研究人员发布了ATHENA-R1——一种专门用于治疗推理的AI代理,它通过强化学习在一个包含212种生物医学工具的宇宙中进行训练,覆盖了自1939年以来所有美国FDA批准的药物。
ATHENA-R1的工作流程模拟了人类的迭代推理过程:在每一步,它自动识别缺失的关键信息,从工具宇宙中选择并运行相关的工具(例如药物数据库、基因知识库或临床试验资源),然后将新获得的证据整合到推理链中。为了在不依赖人工标注的推理轨迹的情况下训练这一代理,研究团队设计了一个双层自学习框架。首先,通过多智能体系统自动构建工具、任务以及完整的推理轨迹,用于监督微调阶段;随后,利用强化学习结合科学反馈信号来奖励推理的质量——包括证据收集的全面性、工具使用的合理性和逻辑的非冗余性。这种双重机制使得ATHENA-R1能够自主学习复杂的治疗推理策略。
在五个基准测试中,涵盖3168项药物推理任务和456个真实患者治疗案例,ATHENA-R1展现了卓越的性能。在开放式药物推理任务中,其准确率达到94.7%,在治疗推理任务中达到82.9%,分别比GPT-5高出17.8和10.7个百分点。此外,来自28个罕见病组织的专家进行了盲评,在所有评估标准(包括证据准确性、推理透明度和临床实用性)上均更偏好ATHENA-R1。针对复杂住院心血管和感染性疾病病例,执业医师的评价也相当积极。研究团队还利用ATHENA-R1生成了药物不良事件假设,并在包含540万患者的电子健康记录中进行了验证。调整后的优势比在1.48到1.84之间,而在阴性对照中未观察到升高,说明这些假设具有统计显著性。
ATHENA-R1的成功表明,通过强化学习可以将治疗推理重构为一个可学习的迭代证据收集过程。这一进展不仅为临床决策支持系统提供了新的可能,还展示了大语言模型在专业领域通过工具使用和强化学习实现突破的潜力。研究团队已经公开了项目页面和代码,以便其他研究者复现和扩展这项工作。未来,这种范式有望推广到其他需要复杂推理的医学领域,甚至更广泛的科学推理场景。