2026-06-09站内改写1 分钟阅读更新: 2026-06-09

利用开源大语言模型从脑MRI报告中自动提取结构化信息

一项新研究评估了开源大语言模型LLaMA 3.1从荷兰语脑MRI报告中自动提取结构化信息的能力。模型在视觉评分等分类变量上表现优异，但在数值变量上表现较差，而少样本提示能显著提升数值变量的提取准确率。

来源arXiv AI作者: Kaouther Mouheb, Amos Pomp, Antoine Manenti, Romy de Haan, Farog Faghir, Joy Martens, Harro Seelaar, Francesco Mattace-Raso, Meike W. Vernooij, Frank J. Wolters, Stefan Klein, Esther E. Bron

近日，一篇发表在arXiv上的研究论文展示了开源大语言模型LLaMA 3.1在从荷兰语脑部MRI报告中自动提取结构化信息方面的潜力。该研究由Kaouther Mouheb等人完成，分析了来自一家三级记忆门诊的947份脑部MRI报告（2016-2021年），这些报告由顾问神经放射科医生撰写。

研究团队训练医学生对三十个变量进行标注，并对100份报告进行双重标注以评估评分者间信度。他们评估了LLaMA 3.1在不同语言（荷兰语与英文翻译）和少样本提示策略下的性能。对于分类变量，采用平衡准确率评估；对于计数变量，采用准确率和平均绝对误差；对于自由文本，采用文本相似度。所有指标均基于947份报告的10次随机分割计算。

结果显示，LLaMA 3.1在视觉评分量表上表现出色：左侧内侧颞叶萎缩（MTA）准确率为90%，右侧为96%；总体皮质萎缩（GCA）为87%；Fazekas评分为94%。微出血检测准确率为93%，梗死检测为82%。病变位置的文本相似度达到0.95。然而，数值变量性能较低：微出血数量准确率为80%，梗死数量仅为66%。

有趣的是，通过使用结构相似性选择的少样本提示，数值变量的性能得到显著提升：微出血数量准确率升至92%，梗死数量升至81%。此外，将荷兰语报告翻译成英文再处理并未带来明显性能差异。

研究结论指出，LLaMA 3.1在从荷兰神经放射学报告中提取数据方面具有强大潜力，少样本提示能有效改善数值变量的提取，但位置特定变量仍是未来改进的方向。该研究已提交至《European Radiology》期刊。