SpeechDx:臨床語音AI的多工基準測試
SpeechDx是一個大規模基準測試,涵蓋12個資料集和27個任務,用於評估臨床語音AI。它按語音產生階段組織任務,測試模型泛化能力。評估12種音訊編碼器發現,大規模語音模型表現最佳,但尚無通用表示。
語音作為健康指標具有獨特優勢,因為它同時涉及神經、運動、呼吸和發聲系統。然而,當前臨床語音AI的研究大多侷限於特定疾病,導致不同研究之間難以比較,泛化能力評估也面臨挑戰。為了解決這一問題,研究團隊提出了SpeechDx——一個大規模的臨床語音AI基準測試,覆蓋12個資料集和27個任務,涉及多種健康狀況,包括帕金森病、阿爾茨海默病、憂鬱症、自閉症譜系障礙等。這些資料集來自不同的研究機構,包含多種語言和錄音條件,從而確保評估的多樣性和真實性。
SpeechDx的創新之處在於根據語音產生的階段來組織任務:概念化(conceptualization)、構詞(formulation)和發音(articulation)。概念化階段涉及思維形成和意圖規劃,構詞階段涉及語法和詞彙選擇,發音階段涉及肌肉協調和聲音產生。這種結構使得評估能夠聚焦於共同的臨床機制,例如,構音障礙可能反映發音階段的損傷,而失語症則可能影響概念化或構詞階段。基準測試透過包含少量標註資料的任務,並在多個資料集上評估同一健康狀況,來測試模型的泛化能力,從而區分臨床上有效的模式與資料集偽影。例如,一個模型在來自醫院A的帕金森病資料集上表現良好,但在來自醫院B的資料集上表現下降,這可能表明模型學到了資料集的特定特徵而非通用疾病標誌。
研究團隊系統評估了12種最先進的音訊編碼器,包括大規模預訓練語音模型(如Wav2Vec 2.0、HuBERT)和領域特定模型(如針對病理語音最佳化的編碼器)。評估涵蓋了所有27個任務,並進行了零樣本跨條件遷移測試,即在一組疾病上訓練,在另一組疾病上測試。結果表明,大規模語音模型在整體上表現最為強勁,尤其是在跨條件遷移場景中,而領域特定模型僅在與其訓練任務高度匹配的任務上有所提升。然而,沒有任何一種表示能夠在所有任務和條件下可靠地泛化,說明通用臨床語音表示仍是一個未解決的問題。
SpeechDx旨在建立一個共同的評估框架,以跟蹤通用臨床語音表示的進展。它提供了標準化的資料劃分、評估指標和基線結果,使研究人員能夠公平比較不同方法。此外,SpeechDx還開放了程式碼和資料集指南,鼓勵社群參與和改進。這項工作的意義在於,它為臨床語音AI從孤立研究向統一發展邁出了關鍵一步,有望加速AI在疾病篩查、遠端監測和輔助診斷中的實際應用。