微调多模态大型语言模型,利用家庭短视频实现临床级自闭症行为评分
研究人员通过低秩适应方法微调Gemini 2.5 Pro模型,使用400个经临床医生评分的家庭视频,在评分者间信度和自闭症诊断准确率上取得显著提升,达到或超过临床医生水平。该方法实现了自闭症评估中可扩展的行为特征提取。
自闭症谱系障碍(ASD)是影响儿童神经发育的重要疾病,在美国每31名儿童中就有1人受其影响。然而,诊断的中位年龄却超过四岁,导致许多儿童错过了早期干预的黄金时期。近年来,人工智能技术的进步为利用家庭短视频等易于获取的观察数据进行量化诊断提供了可能,有望显著降低诊断门槛。
一项发表于arXiv的研究展示了如何通过微调多模态大语言模型来实现临床级的自闭症行为评分。研究团队采用低秩适应(LoRA)方法,对谷歌的Gemini 2.5 Pro模型进行了高效微调。他们使用了400个经临床医生评分的家庭短视频,仅针对30个先前已验证能够产生可靠预测的行为特征进行训练。这些特征涵盖了社交互动、沟通模式、重复行为等多个关键维度。
在99名保留儿童(其中49名被诊断为ASD,50名为神经典型发育儿童)的测试中,模型展现了令人瞩目的性能。与临床医生的评分者间信度——通过每特征加权的Cohen's kappa系数衡量——整体提升了40%(p<0.001),在28个可评估特征中,有27个特征的评分一致性得到改善。更令人惊喜的是,作为模型涌现出的零样本能力,直接进行ASD诊断的F1分数提升了53%(p<0.001),其表现已经达到甚至超过了临床医生的水平。
研究进一步验证了模型的实用性。通过将微调后的大语言模型提取的行为特征输入分类器,形成的辅助诊断管道在所有测试路径上均与直接使用临床医生评分的输入相匹配。该系统实现了77%的准确率(95%置信区间:68-85%)和86%的AUC(95%置信区间:78-92%),充分证明了基于人工智能的行为特征提取方案在自闭症评估中的可靠性和可扩展性。
这项研究的意义在于,它不仅展示了一种高效微调多模态大模型的方法,更重要的是为自闭症的早期筛查提供了全新的技术路径。传统诊断高度依赖专业临床医生的观察和评估,不仅耗时且成本高昂。而基于家庭短视频的AI系统,只需家长录制孩子日常活动的简短片段,即可完成初步评估,大大降低了获取专业诊断的门槛。未来,此类系统有望被整合到移动应用中,让更多家庭能够便捷地获取初步评估结果,推动及时干预。不过,研究者也指出,该模型仍需在更大规模、更多样化的人群中进行验证,以确保其泛化能力和公平性。