2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

通過基於方差感知的評分獎勵與GRPO改進LLMs中專注於心髒的醫學問答

本研究提出了一種採用組相對策略優化（GRPO）結合方差感知獎勵框架的方法，用於後訓練大型語言模型（LLMs）以提升其在心臟相關醫學問答中的表現。該方法將傳統的二元標準聚合和整體Likert評分替換為連續分析獎勵函數，從而提供更豐富的優化信號。在HealthBench的心臟子集上，最佳變體相對於Qwen3-14B基礎模型將準確率從0.362提升至0.502，F1從0.532提升至0.668，性能與GPT-OSS-120B相當。

來源arXiv Computational Linguistics作者: Arash Ahmadi, Parisa Masnadi, Sarah Sharif, Charles Nicholson, David Ebert, Mike Banad

大型語言模型（LLMs）在醫療健康領域展現出巨大潛力，但在實際部署中面臨數據隱私、推理成本和邊緣設備適用性等挑戰。為應對這些問題，研究者致力於開發更小、更高效的模型，並需要穩健的後訓練策略來確保可靠的醫學推理。本文探索了組相對策略優化（GRPO）在心臟相關醫學問答任務中的應用，並結合基於評分的監督信號（源自RaR-Medicine）。作者提出了方差感知獎勵框架，該框架擴展了RaR-Medicine中已有的顯式聚合和隱式聚合策略。具體來説，它用連續分析獎勵函數替代了加權的二元標準聚合和單一的整體Likert評分。這種新公式能夠為稀疏、多標準且難以自動驗證的反饋提供更豐富的優化信號，並促進更穩定的在線強化學習。實驗在HealthBench中保留的心臟相關子集上進行。最佳GRPO變體在Qwen3-14B基礎模型上實現了準確率從0.362到0.502的提升，F1分數從0.532到0.668的提升，性能與大型模型GPT-OSS-120B（準確率0.508，F1 0.674）相當。這一結果表明，精心設計的基於評分的獎勵策略能夠有效增強LLMs在特定醫學領域中的問答能力。作者指出，該方法不僅適用於心臟醫學問答，還有潛力擴展至其他基於評分的任務，例如法律或金融領域的複雜推理。未來工作可探索將方差感知獎勵應用於更廣泛的後訓練場景，並進一步優化小規模模型的推理效率。此外，該研究為在資源受限環境下部署高性能醫療AI模型提供了新思路，有望推動精準醫療和輔助診斷的發展。通過利用GRPO和方差感知獎勵，研究人員能夠在不增加模型規模的前提下顯著提升特定領域的表現，這對於降低醫療AI的應用門檻具有重要意義。