2026-06-29 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-29 16:10 UTC+8

微調多模態大型語言模型，利用家庭短影片實現臨床級自閉症行為評分

研究人員透過低秩適應方法微調Gemini 2.5 Pro模型，使用400個經臨床醫生評分的家庭影片，在評分者間信度和自閉症診斷準確率上取得顯著提升，達到或超過臨床醫生水平。該方法實現了自閉症評估中可擴充套件的行為特徵提取。

來源arXiv Computer Vision作者: Mohammadmahdi Honarmand, Parnian Azizian, Aaron Kline, Kae Nurge, Zerin Nasrin Tumpa, Saimourya Surabhi, Kaitlyn Dunlap, Yang Qian, Ali Kargarandehkordi, Sameer Neupane, Peter Washington, Dennis P. Wall

自閉症譜系障礙（ASD）是影響兒童神經發育的重要疾病，在美國每31名兒童中就有1人受其影響。然而，診斷的中位年齡卻超過四歲，導致許多兒童錯過了早期干預的黃金時期。近年來，人工智慧技術的進步為利用家庭短影片等易於獲取的觀察資料進行量化診斷提供了可能，有望顯著降低診斷門檻。

一項發表於arXiv的研究展示瞭如何透過微調多模態大語言模型來實現臨床級的自閉症行為評分。研究團隊採用低秩適應（LoRA）方法，對谷歌的Gemini 2.5 Pro模型進行了高效微調。他們使用了400個經臨床醫生評分的家庭短影片，僅針對30個先前已驗證能夠產生可靠預測的行為特徵進行訓練。這些特徵涵蓋了社互動動、溝通模式、重複行為等多個關鍵維度。

在99名保留兒童（其中49名被診斷為ASD，50名為神經典型發育兒童）的測試中，模型展現了令人矚目的效能。與臨床醫生的評分者間信度——透過每特徵加權的Cohen's kappa係數衡量——整體提升了40%（p<0.001），在28個可評估特徵中，有27個特徵的評分一致性得到改善。更令人驚喜的是，作為模型湧現出的零樣本能力，直接進行ASD診斷的F1分數提升了53%（p<0.001），其表現已經達到甚至超過了臨床醫生的水平。

研究進一步驗證了模型的實用性。透過將微調後的大語言模型提取的行為特徵輸入分類器，形成的輔助診斷管道在所有測試路徑上均與直接使用臨床醫生評分的輸入相匹配。該系統實現了77%的準確率（95%置信區間：68-85%）和86%的AUC（95%置信區間：78-92%），充分證明了基於人工智慧的行為特徵提取方案在自閉症評估中的可靠性和可擴充套件性。

這項研究的意義在於，它不僅展示了一種高效微調多模態大模型的方法，更重要的是為自閉症的早期篩查提供了全新的技術路徑。傳統診斷高度依賴專業臨床醫生的觀察和評估，不僅耗時且成本高昂。而基於家庭短影片的AI系統，只需家長錄製孩子日常活動的簡短片段，即可完成初步評估，大大降低了獲取專業診斷的門檻。未來，此類系統有望被整合到移動應用中，讓更多家庭能夠便捷地獲取初步評估結果，推動及時干預。不過，研究者也指出，該模型仍需在更大規模、更多樣化的人群中進行驗證，以確保其泛化能力和公平性。