AI News HubLIVE
站内改写1 分钟阅读

大型语言模型集成在PubMed中基于摘要识别EQ-5D研究

本研究探讨使用Google的Gemini和Gemma大型语言模型(LLM)自动检测PubMed中报告EQ-5D数据的文献。提出一个多阶段框架,整合少量样本提示、权重集成和软堆叠元分类器。在专家标记的数据集上评估了9个LLM,其中gemini-2.5-pro、gemma-3-12b和gemma-3-27b的加权集成获得了0.74的加权F1分数和0.74的准确率,优于单个模型。集成方法提高了精确率与召回率的平衡,软堆叠方法提供了更高的可靠性和可解释性。结果表明,基于集成的LLM设置是自动化生物医学研究筛选的可靠且可扩展的方法。

来源arXiv Computational Linguistics作者: Zhyar Rzgar K. Rostam, M\'arta P\'entek, J\'anos Tibor Czere, Zsombor Zrubka, L\'aszl\'o Gul\'acsi, G\'abor Kert\'esz

随着科学出版物数量的快速增长,系统文献综述中的人工研究筛选变得越来越耗费资源、效率低下且不一致。特别是识别明确报告健康相关生活质量结果(如EQ-5D数据)的研究,需要高水平的临床解释,这给人类审稿人带来了巨大挑战。为了应对这一问题,一项新的研究探索了使用Google的Gemini和Gemma大型语言模型(LLM),仅基于已发表的摘要来自动检测PubMed生物医学数据库中的EQ-5D研究。

研究团队提出了一种多阶段框架,该框架整合了少量样本提示(few-shot prompting)、权重集成聚合(weight ensembling aggregation)和软堆叠元分类器(soft stacking meta-classifier)。具体而言,首先通过少量样本提示来引导LLM理解任务,然后对多个LLM的输出进行加权集成,最后使用软堆叠方法作为元分类器来综合决策。该框架在由两位专家手动标注的PubMed研究数据集上进行了评估,涵盖了9个不同的LLM,包括gemini-2.5-pro、gemma-3-12b和gemma-3-27b等。

实验结果显示,gemini-2.5-pro、gemma-3-12b和gemma-3-27b模型的加权集成获得了0.74的加权F1分数和0.74的准确率,显著超过了任何单个模型的表现。与单个模型相比,顶级模型的集成改善了精确率与召回率之间的平衡,减少了误报和漏报。此外,软堆叠方法提供了更高的可靠性和可解释性,使得决策过程更加透明。特征分析表明,模型输出的概率结果对最终预测至关重要,这为理解模型行为提供了重要线索。

该研究还注意到,论文包含6页、7张表格和8个方程,主要涉及计算机语言学和人工智能领域。研究结论指出,基于集成的LLM设置是自动化生物医学研究筛选的一种可靠且可扩展的方法,有望显著提高系统文献综述的效率,减轻人类审稿人的负担。未来,该方法还可以扩展到其他类型的文献筛查任务中。