AI News HubLIVE
站内改写1 分鐘閱讀

通過基於方差感知的評分獎勵與GRPO改進LLMs中專注於心髒的醫學問答

本研究提出了一種採用組相對策略優化(GRPO)結合方差感知獎勵框架的方法,用於後訓練大型語言模型(LLMs)以提升其在心臟相關醫學問答中的表現。該方法將傳統的二元標準聚合和整體Likert評分替換為連續分析獎勵函數,從而提供更豐富的優化信號。在HealthBench的心臟子集上,最佳變體相對於Qwen3-14B基礎模型將準確率從0.362提升至0.502,F1從0.532提升至0.668,性能與GPT-OSS-120B相當。

來源arXiv Computational Linguistics作者: Arash Ahmadi, Parisa Masnadi, Sarah Sharif, Charles Nicholson, David Ebert, Mike Banad

大型語言模型(LLMs)在醫療健康領域展現出巨大潛力,但在實際部署中面臨數據隱私、推理成本和邊緣設備適用性等挑戰。為應對這些問題,研究者致力於開發更小、更高效的模型,並需要穩健的後訓練策略來確保可靠的醫學推理。本文探索了組相對策略優化(GRPO)在心臟相關醫學問答任務中的應用,並結合基於評分的監督信號(源自RaR-Medicine)。作者提出了方差感知獎勵框架,該框架擴展了RaR-Medicine中已有的顯式聚合和隱式聚合策略。具體來説,它用連續分析獎勵函數替代了加權的二元標準聚合和單一的整體Likert評分。這種新公式能夠為稀疏、多標準且難以自動驗證的反饋提供更豐富的優化信號,並促進更穩定的在線強化學習。實驗在HealthBench中保留的心臟相關子集上進行。最佳GRPO變體在Qwen3-14B基礎模型上實現了準確率從0.362到0.502的提升,F1分數從0.532到0.668的提升,性能與大型模型GPT-OSS-120B(準確率0.508,F1 0.674)相當。這一結果表明,精心設計的基於評分的獎勵策略能夠有效增強LLMs在特定醫學領域中的問答能力。作者指出,該方法不僅適用於心臟醫學問答,還有潛力擴展至其他基於評分的任務,例如法律或金融領域的複雜推理。未來工作可探索將方差感知獎勵應用於更廣泛的後訓練場景,並進一步優化小規模模型的推理效率。此外,該研究為在資源受限環境下部署高性能醫療AI模型提供了新思路,有望推動精準醫療和輔助診斷的發展。通過利用GRPO和方差感知獎勵,研究人員能夠在不增加模型規模的前提下顯著提升特定領域的表現,這對於降低醫療AI的應用門檻具有重要意義。