临床智能体的世界反馈:在FHIR环境中诊断强化学习
该研究审计了MedAgentBench v1/v2,发现41.7%的静默完成上限,并构建了MAB-v3(508个任务,8.9%上限)。使用Qwen3-8B训练揭示了两个结构性障碍:能力上限和格式知识障碍。纯强化学习达到18.2%的pass@1,而基于规则的SFT为34.1%,差距完全归因于这些障碍。研究提出了决策/格式知识/查找分类法来预测强化学习的可学习性。
强化学习(RL)在临床协议执行任务中具有天然优势,例如检查实验室值、应用阈值、正确构建FHIR订单等。这些任务一旦由临床专家将决策逻辑编码到验证器中,验证器就可以对无限次 rollout 进行评分,无需逐条注释。然而,将RL应用于此类环境需要可靠的反馈通道和足够的基础能力。
由Ananya Mantravadi等人进行的一项研究对现有的MedAgentBench v1/v2基准进行了审计,发现其中存在高达41.7%的静默完成上限(silent-finish ceiling)。这意味着智能体可以通过不采取任何行动而获得成功,使得不作为成为RL的主导策略。为了消除这个虚假的成功信号,研究团队构建了MedAgentBench-v3(MAB-v3),包含508个精心设计的任务,并将静默完成上限降至8.9%。
他们使用Qwen3-8B模型进行训练,揭示了两个结构性障碍。第一是能力上限(capability ceiling):20个任务类型中有10个的基础表现为0%,导致RL梯度无法有效传播。第二是格式知识障碍(format-knowledge barrier):3个任务类型需要精确的临床代码,这些代码无法通过随机探索发现。实验结果显示,纯RL的pass@1仅为18.2%,而基于规则的监督微调(SFT)达到了34.1%,两者之间15.9个百分点的差距完全归因于上述两个障碍。
研究进一步提出了一个决策/格式知识/查找(decision/format-knowledge/lookup)分类法,用于预测RL在给定任务上的可学习性。该分类法还给出了解决方案:先用SFT注入代码知识,再用RL学习条件逻辑。这一发现对于设计有效的临床AI智能体具有重要意义,也为其他领域的RL应用提供了借鉴。论文于2026年7月1日提交至arXiv,作者还包括其他三位合作者。