2026-06-19站内改写1 分钟阅读更新: 2026-06-19

大型语言模型集成在PubMed中基于摘要识别EQ-5D研究

本研究探讨使用Google的Gemini和Gemma大型语言模型（LLM）自动检测PubMed中报告EQ-5D数据的文献。提出一个多阶段框架，整合少量样本提示、权重集成和软堆叠元分类器。在专家标记的数据集上评估了9个LLM，其中gemini-2.5-pro、gemma-3-12b和gemma-3-27b的加权集成获得了0.74的加权F1分数和0.74的准确率，优于单个模型。集成方法提高了精确率与召回率的平衡，软堆叠方法提供了更高的可靠性和可解释性。结果表明，基于集成的LLM设置是自动化生物医学研究筛选的可靠且可扩展的方法。

来源arXiv Computational Linguistics作者: Zhyar Rzgar K. Rostam, M\'arta P\'entek, J\'anos Tibor Czere, Zsombor Zrubka, L\'aszl\'o Gul\'acsi, G\'abor Kert\'esz

随着科学出版物数量的快速增长，系统文献综述中的人工研究筛选变得越来越耗费资源、效率低下且不一致。特别是识别明确报告健康相关生活质量结果（如EQ-5D数据）的研究，需要高水平的临床解释，这给人类审稿人带来了巨大挑战。为了应对这一问题，一项新的研究探索了使用Google的Gemini和Gemma大型语言模型（LLM），仅基于已发表的摘要来自动检测PubMed生物医学数据库中的EQ-5D研究。

研究团队提出了一种多阶段框架，该框架整合了少量样本提示（few-shot prompting）、权重集成聚合（weight ensembling aggregation）和软堆叠元分类器（soft stacking meta-classifier）。具体而言，首先通过少量样本提示来引导LLM理解任务，然后对多个LLM的输出进行加权集成，最后使用软堆叠方法作为元分类器来综合决策。该框架在由两位专家手动标注的PubMed研究数据集上进行了评估，涵盖了9个不同的LLM，包括gemini-2.5-pro、gemma-3-12b和gemma-3-27b等。

实验结果显示，gemini-2.5-pro、gemma-3-12b和gemma-3-27b模型的加权集成获得了0.74的加权F1分数和0.74的准确率，显著超过了任何单个模型的表现。与单个模型相比，顶级模型的集成改善了精确率与召回率之间的平衡，减少了误报和漏报。此外，软堆叠方法提供了更高的可靠性和可解释性，使得决策过程更加透明。特征分析表明，模型输出的概率结果对最终预测至关重要，这为理解模型行为提供了重要线索。

该研究还注意到，论文包含6页、7张表格和8个方程，主要涉及计算机语言学和人工智能领域。研究结论指出，基于集成的LLM设置是自动化生物医学研究筛选的一种可靠且可扩展的方法，有望显著提高系统文献综述的效率，减轻人类审稿人的负担。未来，该方法还可以扩展到其他类型的文献筛查任务中。