2026-06-17站内改写1 分钟阅读更新: 2026-06-17

利用信息缺失生成不规则临床时间序列

本文提出一种基于扩散模型的方法，联合建模实验室检测值及其观测模式，生成更真实的临床时间序列。该方法利用来自MIMIC-III的DACMI基准数据集，将图表时间对齐为4小时间隔，入院记录分割为7天窗口，扩展TimeDiff框架学习连续值和离散缺失模式。实验表明生成数据与真实患者轨迹高度吻合，可捕获患者生理与医生检测行为之间的临床依赖关系，为临床基础模型开发提供初始组件。

来源arXiv Machine Learning作者: Hadi Mehdizavareh, Gabriele Santangelo, Giovanna Nicora, Simon Lebech Cichosz, Arianna Dagliati, Arijit Khan, Riccardo Bellazzi

电子健康记录（EHR）中的实验室检测通常是不规则采集的，检测缺失本身可能包含重要信息，反映了临床医生的决策和患者的生理状态。然而，大多数现有方法将缺失视为需要预处理消除的噪声。一项新研究提出了一种基于扩散模型的方法，直接对实验室测量值及其观察模式进行联合建模，旨在生成更真实的临床时间序列。该研究由Hadi Mehdizavareh等七位作者完成，论文于2026年6月14日提交至arXiv预印本平台（编号2606.17106）。

该方法基于公开的DACMI基准数据集，该数据集来源于MIMIC-III重症监护数据库。研究团队将图表时间对齐为4小时间隔，并将入院记录分割为7天窗口，产生每个实验室值与对应观察指示符配对的轨迹。这种处理方式保留了现实采样特性。模型扩展了TimeDiff框架，通过互补的扩散目标学习连续实验室值和离散缺失模式，并采用标准变换和归一化技术稳定训练过程。

实验结果显示，生成的数据在个体实验室分布和联合值-缺失嵌入方面与真实患者轨迹高度吻合。这表明扩散模型能够捕捉患者生理与临床医生检测行为之间具有临床意义的依赖关系，特别是在“非随机缺失”（MNAR）情境下。这些初步结果证明，该模型可作为开发临床基础模型的初始组件。研究者指出，通过生成保留关键生理-缺失关系的人工先验，该工作为后续训练能够利用信息缺失的“先验数据拟合网络”奠定了基础。未来工作将进一步探索这一方向。

该研究为处理临床数据中的缺失问题提供了新思路，有望推动更鲁棒、更具解释性的临床AI系统发展。论文涵盖机器学习（cs.LG）和计算机与社会（cs.CY）两个学科领域，并提供了完整的引用信息和相关链接。