2026-06-04 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

當檢索不起作用時：生物醫學RAG的大規模研究

一項大規模研究表明，在生物醫學問答中，檢索增強生成（RAG）帶來的提升很小且不穩定，通常僅為1-2個百分點。骨幹模型的選擇比檢索器或語料庫的選擇影響更大，專家和普通檢索來源表現相似。

來源arXiv Computational Linguistics作者: Erfan Nourbakhsh, Rocky Slavin, Ke Yang, Anthony Rios

一篇即將在ACL 2026 BioNLP Workshop上展示的大規模研究對檢索增強生成（RAG）在生物醫學問答（QA）中的實際效果進行了全面再評估。該研究由Erfan Nourbakhsh等人完成，他們系統性地測試了五個開源指令微調模型，引數規模從7B到72B不等，涵蓋了十個生物醫學QA資料集、四種檢索方法以及四個檢索語料庫。研究團隊發現，與不使用檢索的基線相比，RAG帶來的平均效能提升僅為1到2個百分點，且這種提升在不同設定下並不一致，有時甚至完全消失。相比之下，骨幹模型的選擇對最終效能的影響遠大於檢索器或語料庫的選擇；無論是使用專家編寫的醫學文獻（如PubMed）還是普通大眾可及的維基百科作為檢索來源，在大多數測試場景中效果相差無幾。研究者指出，當前的主要瓶頸並非檢索質量本身，而是模型無法有效利用檢索到的證據內容。這一發現直接挑戰了此前許多研究中聲稱RAG能顯著增強醫療問答系統效能的普遍假設。論文強調，未來的研究應更多關注如何提升模型整合和推理外部資訊的能力，而非單純改進檢索模組。該論文於2026年6月2日提交至arXiv（編號2606.04127），全文共9頁，已被ACL 2026 BioNLP Workshop正式接收。這項研究對高風險的醫療問答應用場景具有重要啟示：在部署RAG系統前，需謹慎評估骨幹模型本身的能力，而非盲目依賴檢索帶來的增益。