2026-07-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 15:59 UTC+8

臨床智慧體的世界反饋：在FHIR環境中診斷強化學習

該研究審計了MedAgentBench v1/v2，發現41.7%的靜默完成上限，並構建了MAB-v3（508個任務，8.9%上限）。使用Qwen3-8B訓練揭示了兩個結構性障礙：能力上限和格式知識障礙。純強化學習達到18.2%的pass@1，而基於規則的SFT為34.1%，差距完全歸因於這些障礙。研究提出了決策/格式知識/查詢分類法來預測強化學習的可學習性。

來源arXiv AI作者: Ananya Mantravadi, Harshit Rajgarhia, Prasanna Desikan, Abhishek Mukherji

強化學習（RL）在臨床協議執行任務中具有天然優勢，例如檢查實驗室值、應用閾值、正確構建FHIR訂單等。這些任務一旦由臨床專家將決策邏輯編碼到驗證器中，驗證器就可以對無限次 rollout 進行評分，無需逐條註釋。然而，將RL應用於此類環境需要可靠的反饋通道和足夠的基礎能力。

由Ananya Mantravadi等人進行的一項研究對現有的MedAgentBench v1/v2基準進行了審計，發現其中存在高達41.7%的靜默完成上限（silent-finish ceiling）。這意味著智慧體可以透過不採取任何行動而獲得成功，使得不作為成為RL的主導策略。為了消除這個虛假的成功訊號，研究團隊構建了MedAgentBench-v3（MAB-v3），包含508個精心設計的任務，並將靜默完成上限降至8.9%。

他們使用Qwen3-8B模型進行訓練，揭示了兩個結構性障礙。第一是能力上限（capability ceiling）：20個任務型別中有10個的基礎表現為0%，導致RL梯度無法有效傳播。第二是格式知識障礙（format-knowledge barrier）：3個任務型別需要精確的臨床程式碼，這些程式碼無法透過隨機探索發現。實驗結果顯示，純RL的pass@1僅為18.2%，而基於規則的監督微調（SFT）達到了34.1%，兩者之間15.9個百分點的差距完全歸因於上述兩個障礙。

研究進一步提出了一個決策/格式知識/查詢（decision/format-knowledge/lookup）分類法，用於預測RL在給定任務上的可學習性。該分類法還給出瞭解決方案：先用SFT注入程式碼知識，再用RL學習條件邏輯。這一發現對於設計有效的臨床AI智慧體具有重要意義，也為其他領域的RL應用提供了借鑑。論文於2026年7月1日提交至arXiv，作者還包括其他三位合作者。