2026-06-09站内改写1 分鐘閱讀更新: 2026-06-09

利用開源大語言模型從腦MRI報告中自動提取結構化信息

一項新研究評估了開源大語言模型LLaMA 3.1從荷蘭語腦MRI報告中自動提取結構化信息的能力。模型在視覺評分等分類變量上表現優異，但在數值變量上表現較差，而少樣本提示能顯著提升數值變量的提取準確率。

來源arXiv AI作者: Kaouther Mouheb, Amos Pomp, Antoine Manenti, Romy de Haan, Farog Faghir, Joy Martens, Harro Seelaar, Francesco Mattace-Raso, Meike W. Vernooij, Frank J. Wolters, Stefan Klein, Esther E. Bron

近日，一篇發表在arXiv上的研究論文展示了開源大語言模型LLaMA 3.1在從荷蘭語腦部MRI報告中自動提取結構化信息方面的潛力。該研究由Kaouther Mouheb等人完成，分析了來自一家三級記憶門診的947份腦部MRI報告（2016-2021年），這些報告由顧問神經放射科醫生撰寫。

研究團隊訓練醫學生對三十個變量進行標註，並對100份報告進行雙重標註以評估評分者間信度。他們評估了LLaMA 3.1在不同語言（荷蘭語與英文翻譯）和少樣本提示策略下的性能。對於分類變量，採用平衡準確率評估；對於計數變量，採用準確率和平均絕對誤差；對於自由文本，採用文本相似度。所有指標均基於947份報告的10次隨機分割計算。

結果顯示，LLaMA 3.1在視覺評分量表上表現出色：左側內側顳葉萎縮（MTA）準確率為90%，右側為96%；總體皮質萎縮（GCA）為87%；Fazekas評分為94%。微出血檢測準確率為93%，梗死檢測為82%。病變位置的文本相似度達到0.95。然而，數值變量性能較低：微出血數量準確率為80%，梗死數量僅為66%。

有趣的是，通過使用結構相似性選擇的少樣本提示，數值變量的性能得到顯著提升：微出血數量準確率升至92%，梗死數量升至81%。此外，將荷蘭語報告翻譯成英文再處理並未帶來明顯性能差異。

研究結論指出，LLaMA 3.1在從荷蘭神經放射學報告中提取數據方面具有強大潛力，少樣本提示能有效改善數值變量的提取，但位置特定變量仍是未來改進的方向。該研究已提交至《European Radiology》期刊。