大型語言模型整合在PubMed中基於摘要識別EQ-5D研究
本研究探討使用Google的Gemini和Gemma大型語言模型(LLM)自動檢測PubMed中報告EQ-5D資料的文獻。提出一個多階段框架,整合少量樣本提示、權重整合和軟堆疊元分類器。在專家標記的資料集上評估了9個LLM,其中gemini-2.5-pro、gemma-3-12b和gemma-3-27b的加權整合獲得了0.74的加權F1分數和0.74的準確率,優於單個模型。整合方法提高了精確率與召回率的平衡,軟堆疊方法提供了更高的可靠性和可解釋性。結果表明,基於整合的LLM設定是自動化生物醫學研究篩選的可靠且可擴充套件的方法。
隨著科學出版物數量的快速增長,系統文獻綜述中的人工研究篩選變得越來越耗費資源、效率低下且不一致。特別是識別明確報告健康相關生活質量結果(如EQ-5D資料)的研究,需要高水平的臨床解釋,這給人類審稿人帶來了巨大挑戰。為了應對這一問題,一項新的研究探索了使用Google的Gemini和Gemma大型語言模型(LLM),僅基於已發表的摘要來自動檢測PubMed生物醫學資料庫中的EQ-5D研究。
研究團隊提出了一種多階段框架,該框架整合了少量樣本提示(few-shot prompting)、權重整合聚合(weight ensembling aggregation)和軟堆疊元分類器(soft stacking meta-classifier)。具體而言,首先透過少量樣本提示來引導LLM理解任務,然後對多個LLM的輸出進行加權整合,最後使用軟堆疊方法作為元分類器來綜合決策。該框架在由兩位專家手動標註的PubMed研究資料集上進行了評估,涵蓋了9個不同的LLM,包括gemini-2.5-pro、gemma-3-12b和gemma-3-27b等。
實驗結果顯示,gemini-2.5-pro、gemma-3-12b和gemma-3-27b模型的加權整合獲得了0.74的加權F1分數和0.74的準確率,顯著超過了任何單個模型的表現。與單個模型相比,頂級模型的整合改善了精確率與召回率之間的平衡,減少了誤報和漏報。此外,軟堆疊方法提供了更高的可靠性和可解釋性,使得決策過程更加透明。特徵分析表明,模型輸出的機率結果對最終預測至關重要,這為理解模型行為提供了重要線索。
該研究還注意到,論文包含6頁、7張表格和8個方程,主要涉及計算機語言學和人工智慧領域。研究結論指出,基於整合的LLM設定是自動化生物醫學研究篩選的一種可靠且可擴充套件的方法,有望顯著提高系統文獻綜述的效率,減輕人類審稿人的負擔。未來,該方法還可以擴充套件到其他型別的文獻篩查任務中。