當檢索不起作用時:生物醫學RAG的大規模研究
一項大規模研究表明,在生物醫學問答中,檢索增強生成(RAG)帶來的提升很小且不穩定,通常僅為1-2個百分點。骨幹模型的選擇比檢索器或語料庫的選擇影響更大,專家和普通檢索來源表現相似。
一篇即將在ACL 2026 BioNLP Workshop上展示的大規模研究對檢索增強生成(RAG)在生物醫學問答(QA)中的實際效果進行了全面再評估。該研究由Erfan Nourbakhsh等人完成,他們系統性地測試了五個開源指令微調模型,引數規模從7B到72B不等,涵蓋了十個生物醫學QA資料集、四種檢索方法以及四個檢索語料庫。研究團隊發現,與不使用檢索的基線相比,RAG帶來的平均效能提升僅為1到2個百分點,且這種提升在不同設定下並不一致,有時甚至完全消失。相比之下,骨幹模型的選擇對最終效能的影響遠大於檢索器或語料庫的選擇;無論是使用專家編寫的醫學文獻(如PubMed)還是普通大眾可及的維基百科作為檢索來源,在大多數測試場景中效果相差無幾。研究者指出,當前的主要瓶頸並非檢索質量本身,而是模型無法有效利用檢索到的證據內容。這一發現直接挑戰了此前許多研究中聲稱RAG能顯著增強醫療問答系統效能的普遍假設。論文強調,未來的研究應更多關注如何提升模型整合和推理外部資訊的能力,而非單純改進檢索模組。該論文於2026年6月2日提交至arXiv(編號2606.04127),全文共9頁,已被ACL 2026 BioNLP Workshop正式接收。這項研究對高風險的醫療問答應用場景具有重要啟示:在部署RAG系統前,需謹慎評估骨幹模型本身的能力,而非盲目依賴檢索帶來的增益。