2026-07-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 15:59 UTC+8

临床智能体的世界反馈：在FHIR环境中诊断强化学习

该研究审计了MedAgentBench v1/v2，发现41.7%的静默完成上限，并构建了MAB-v3（508个任务，8.9%上限）。使用Qwen3-8B训练揭示了两个结构性障碍：能力上限和格式知识障碍。纯强化学习达到18.2%的pass@1，而基于规则的SFT为34.1%，差距完全归因于这些障碍。研究提出了决策/格式知识/查找分类法来预测强化学习的可学习性。

来源arXiv AI作者: Ananya Mantravadi, Harshit Rajgarhia, Prasanna Desikan, Abhishek Mukherji

强化学习（RL）在临床协议执行任务中具有天然优势，例如检查实验室值、应用阈值、正确构建FHIR订单等。这些任务一旦由临床专家将决策逻辑编码到验证器中，验证器就可以对无限次 rollout 进行评分，无需逐条注释。然而，将RL应用于此类环境需要可靠的反馈通道和足够的基础能力。

由Ananya Mantravadi等人进行的一项研究对现有的MedAgentBench v1/v2基准进行了审计，发现其中存在高达41.7%的静默完成上限（silent-finish ceiling）。这意味着智能体可以通过不采取任何行动而获得成功，使得不作为成为RL的主导策略。为了消除这个虚假的成功信号，研究团队构建了MedAgentBench-v3（MAB-v3），包含508个精心设计的任务，并将静默完成上限降至8.9%。

他们使用Qwen3-8B模型进行训练，揭示了两个结构性障碍。第一是能力上限（capability ceiling）：20个任务类型中有10个的基础表现为0%，导致RL梯度无法有效传播。第二是格式知识障碍（format-knowledge barrier）：3个任务类型需要精确的临床代码，这些代码无法通过随机探索发现。实验结果显示，纯RL的pass@1仅为18.2%，而基于规则的监督微调（SFT）达到了34.1%，两者之间15.9个百分点的差距完全归因于上述两个障碍。

研究进一步提出了一个决策/格式知识/查找（decision/format-knowledge/lookup）分类法，用于预测RL在给定任务上的可学习性。该分类法还给出了解决方案：先用SFT注入代码知识，再用RL学习条件逻辑。这一发现对于设计有效的临床AI智能体具有重要意义，也为其他领域的RL应用提供了借鉴。论文于2026年7月1日提交至arXiv，作者还包括其他三位合作者。