2026-06-09站内改写1 分で読了更新: 2026-06-09

オープンウェイト大規模言語モデルを用いた脳MRIレポートからの構造化情報の自動抽出

新しい研究は、オープンウェイト大規模言語モデルLLaMA 3.1がオランダ語の脳MRIレポートから構造化情報を自動抽出する能力を評価しました。モデルは視覚評価スコアなどのカテゴリ変数で優れた性能を示しましたが、数値変数では性能が低く、少数ショットプロンプティングが数値抽出精度を大幅に向上させました。

ソースarXiv AI著者: Kaouther Mouheb, Amos Pomp, Antoine Manenti, Romy de Haan, Farog Faghir, Joy Martens, Harro Seelaar, Francesco Mattace-Raso, Meike W. Vernooij, Frank J. Wolters, Stefan Klein, Esther E. Bron

記事インテリジェンス

エンジニア上級

要点

LLaMA 3.1は視覚評価スコア（MTA、GCA、Fazekas）で87％～96％のゼロショット精度を達成。
微小出血と梗塞の検出精度はそれぞれ93％と82％だったが、数値カウントは低かった。
少数ショットプロンプティングにより、微小出血カウント精度が80％から92％、梗塞カウントが66％から81％に向上。
英語翻訳でも同等の結果が得られたが、位置固有の変数には課題が残る。

重要な理由

このニュースが重要なのは、LLaMA 3.1は視覚評価スコア（MTA、GCA、Fazekas）で87％～96％のゼロショット精度を達成ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

最近、arXivに掲載された研究論文は、オープンウェイト大規模言語モデルLLaMA 3.1がオランダ語の脳MRIレポートから構造化情報を自動抽出する可能性を示しています。Kaouther Mouhebらによるこの研究では、2016年から2021年にかけて三次記憶外来で作成された947件の脳MRIレポートを分析し、これらはコンサルタント神経放射線科医によって作成されました。

研究チームは医学生を訓練して30の変数を注釈付けし、100件のレポートを二重注釈して評価者間信頼性を評価しました。LLaMA 3.1の性能を、異なる言語（オランダ語と英訳）および異なる例選択戦略を用いた少数ショットプロンプティングで評価しました。カテゴリ変数にはバランス精度、カウント変数には精度と平均絶対誤差、自由テキストにはテキスト類似度を使用しました。指標は947件のレポートの10回のランダム分割にわたって計算されました。

結果、LLaMA 3.1は視覚評価スコアで高いゼロショット性能を示しました：左側内側側頭葉萎縮（MTA）90％、右側96％、全般性皮質萎縮（GCA）87％、Fazekasスコア94％。微小出血の検出精度は93％、梗塞は82％でした。病変位置のテキスト類似度は0.95に達しました。しかし、数値変数の性能は低く、微小出血数で80％、梗塞数で66％でした。

構造的類似性に基づく選択を用いた少数ショットプロンプティングにより、微小出血数は92％、梗塞数は81％に向上しました。また、オランダ語レポートを英訳して処理しても同等の結果が得られました。

研究は、LLaMA 3.1がオランダ語神経放射線レポートからのデータ抽出に強力な可能性を持ち、少数ショットプロンプティングが数値変数の抽出を改善する一方、位置固有の変数には課題が残ると結論付けています。この論文はEuropean Radiology誌に投稿されています。