臨床智慧體的世界反饋:在FHIR環境中診斷強化學習
該研究審計了MedAgentBench v1/v2,發現41.7%的靜默完成上限,並構建了MAB-v3(508個任務,8.9%上限)。使用Qwen3-8B訓練揭示了兩個結構性障礙:能力上限和格式知識障礙。純強化學習達到18.2%的pass@1,而基於規則的SFT為34.1%,差距完全歸因於這些障礙。研究提出了決策/格式知識/查詢分類法來預測強化學習的可學習性。
強化學習(RL)在臨床協議執行任務中具有天然優勢,例如檢查實驗室值、應用閾值、正確構建FHIR訂單等。這些任務一旦由臨床專家將決策邏輯編碼到驗證器中,驗證器就可以對無限次 rollout 進行評分,無需逐條註釋。然而,將RL應用於此類環境需要可靠的反饋通道和足夠的基礎能力。
由Ananya Mantravadi等人進行的一項研究對現有的MedAgentBench v1/v2基準進行了審計,發現其中存在高達41.7%的靜默完成上限(silent-finish ceiling)。這意味著智慧體可以透過不採取任何行動而獲得成功,使得不作為成為RL的主導策略。為了消除這個虛假的成功訊號,研究團隊構建了MedAgentBench-v3(MAB-v3),包含508個精心設計的任務,並將靜默完成上限降至8.9%。
他們使用Qwen3-8B模型進行訓練,揭示了兩個結構性障礙。第一是能力上限(capability ceiling):20個任務型別中有10個的基礎表現為0%,導致RL梯度無法有效傳播。第二是格式知識障礙(format-knowledge barrier):3個任務型別需要精確的臨床程式碼,這些程式碼無法透過隨機探索發現。實驗結果顯示,純RL的pass@1僅為18.2%,而基於規則的監督微調(SFT)達到了34.1%,兩者之間15.9個百分點的差距完全歸因於上述兩個障礙。
研究進一步提出了一個決策/格式知識/查詢(decision/format-knowledge/lookup)分類法,用於預測RL在給定任務上的可學習性。該分類法還給出瞭解決方案:先用SFT注入程式碼知識,再用RL學習條件邏輯。這一發現對於設計有效的臨床AI智慧體具有重要意義,也為其他領域的RL應用提供了借鑑。論文於2026年7月1日提交至arXiv,作者還包括其他三位合作者。