2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

大型語言模型整合在PubMed中基於摘要識別EQ-5D研究

本研究探討使用Google的Gemini和Gemma大型語言模型（LLM）自動檢測PubMed中報告EQ-5D資料的文獻。提出一個多階段框架，整合少量樣本提示、權重整合和軟堆疊元分類器。在專家標記的資料集上評估了9個LLM，其中gemini-2.5-pro、gemma-3-12b和gemma-3-27b的加權整合獲得了0.74的加權F1分數和0.74的準確率，優於單個模型。整合方法提高了精確率與召回率的平衡，軟堆疊方法提供了更高的可靠性和可解釋性。結果表明，基於整合的LLM設定是自動化生物醫學研究篩選的可靠且可擴充套件的方法。

來源arXiv Computational Linguistics作者: Zhyar Rzgar K. Rostam, M\'arta P\'entek, J\'anos Tibor Czere, Zsombor Zrubka, L\'aszl\'o Gul\'acsi, G\'abor Kert\'esz

隨著科學出版物數量的快速增長，系統文獻綜述中的人工研究篩選變得越來越耗費資源、效率低下且不一致。特別是識別明確報告健康相關生活質量結果（如EQ-5D資料）的研究，需要高水平的臨床解釋，這給人類審稿人帶來了巨大挑戰。為了應對這一問題，一項新的研究探索了使用Google的Gemini和Gemma大型語言模型（LLM），僅基於已發表的摘要來自動檢測PubMed生物醫學資料庫中的EQ-5D研究。

研究團隊提出了一種多階段框架，該框架整合了少量樣本提示（few-shot prompting）、權重整合聚合（weight ensembling aggregation）和軟堆疊元分類器（soft stacking meta-classifier）。具體而言，首先透過少量樣本提示來引導LLM理解任務，然後對多個LLM的輸出進行加權整合，最後使用軟堆疊方法作為元分類器來綜合決策。該框架在由兩位專家手動標註的PubMed研究資料集上進行了評估，涵蓋了9個不同的LLM，包括gemini-2.5-pro、gemma-3-12b和gemma-3-27b等。

實驗結果顯示，gemini-2.5-pro、gemma-3-12b和gemma-3-27b模型的加權整合獲得了0.74的加權F1分數和0.74的準確率，顯著超過了任何單個模型的表現。與單個模型相比，頂級模型的整合改善了精確率與召回率之間的平衡，減少了誤報和漏報。此外，軟堆疊方法提供了更高的可靠性和可解釋性，使得決策過程更加透明。特徵分析表明，模型輸出的機率結果對最終預測至關重要，這為理解模型行為提供了重要線索。

該研究還注意到，論文包含6頁、7張表格和8個方程，主要涉及計算機語言學和人工智慧領域。研究結論指出，基於整合的LLM設定是自動化生物醫學研究篩選的一種可靠且可擴充套件的方法，有望顯著提高系統文獻綜述的效率，減輕人類審稿人的負擔。未來，該方法還可以擴充套件到其他型別的文獻篩查任務中。