2026-06-17站内改写2 分で読了更新: 2026-06-17

情報欠落を利用した不規則な臨床時系列の生成

本論文では、臨床時系列データを生成するための拡散モデルに基づくアプローチを提案し、検査値とその観測パターンを同時にモデル化します。MIMIC-III由来のDACMIベンチマークを使用し、チャート時間を4時間間隔に整列させ、入院データを7日間のウィンドウに分割します。TimeDiffフレームワークを拡張し、連続的な検査値と離散的な欠落パターンを学習します。実験では、生成データが実際の患者軌跡とよく一致し、MNAR様の欠落条件下で臨床的に意味のある依存関係を捉えることが示されました。この研究は、臨床基盤モデル開発の初期コンポーネントとして機能します。

ソースarXiv Machine Learning著者: Hadi Mehdizavareh, Gabriele Santangelo, Giovanna Nicora, Simon Lebech Cichosz, Arianna Dagliati, Arijit Khan, Riccardo Bellazzi

電子健康記録（EHR）内の臨床検査は不規則に収集され、検査が行われなかったこと自体が医師の判断や患者の生理状態を反映する情報を持つことがあります。しかし、既存の手法の多くは欠落を前処理で除去すべきノイズとして扱っています。本研究では、拡散モデルを用いて検査値とその観測パターンを同時にモデル化する新しいアプローチを提案し、より現実的な臨床時系列の生成を目指します。この研究はHadi Mehdizavareh氏を含む7名の著者によるもので、2026年6月14日にarXiv（識別番号2606.17106）に投稿されました。

提案手法は、MIMIC-IIIデータベースから派生した公開DACMIベンチマークを利用し、チャート時間を4時間間隔に整列させ、入院データを7日間のウィンドウに分割します。これにより、各検査値と対応する観測指示子をペアにした軌跡を生成します。モデルはTimeDiffフレームワークを拡張し、相補的な拡散目的関数を通じて連続的な検査値と離散的な欠落パターンを学習します。標準的な変換と正規化により学習の安定化を図っています。

実験結果は、生成されたデータが個々の検査分布および値-欠落の結合埋め込みにおいて実際の患者軌跡と非常によく一致することを示しました。これは、拡散モデルが「非ランダム欠落（MNAR）」に類似した条件下で、患者の生理と医師の検査行動との間の臨床的に意味のある依存関係を捉えられることを実証しています。研究者らは、この予備的結果が臨床基盤モデル開発の初期コンポーネントとして機能すると述べています。生理-欠落関係を保持した合成事前分布を生成することで、情報欠落を活用できる「事前データ適合ネットワーク」の訓練を可能にします。今後の研究ではこの方向性をさらに探求する予定です。

本研究は、臨床データの欠落問題に対する新たな視点を提供し、より堅牢で解釈可能な臨床AIシステムの発展に貢献する可能性があります。論文は機械学習（cs.LG）とコンピュータと社会（cs.CY）の両分野に分類されており、引用情報や関連リンクも提供されています。