AI News HubLIVE
站内改写2 分鐘閱讀

SpeechDx:臨牀語音AI的多任務基準測試

SpeechDx是一個大規模基準測試,涵蓋12個數據集和27個任務,用於評估臨牀語音AI。它按語音產生階段組織任務,測試模型泛化能力。評估12種音頻編碼器發現,大規模語音模型表現最佳,但尚無通用表示。

來源arXiv AI作者: Sejal Bhalla, Larry Kieu, Aina Merchant, Eyal de Lara, Alex Mariakakis

語音作為健康指標具有獨特優勢,因為它同時涉及神經、運動、呼吸和發聲系統。然而,當前臨牀語音AI的研究大多侷限於特定疾病,導致不同研究之間難以比較,泛化能力評估也面臨挑戰。為了解決這一問題,研究團隊提出了SpeechDx——一個大規模的臨牀語音AI基準測試,覆蓋12個數據集和27個任務,涉及多種健康狀況,包括帕金森病、阿爾茨海默病、抑鬱症、自閉症譜系障礙等。這些數據集來自不同的研究機構,包含多種語言和錄音條件,從而確保評估的多樣性和真實性。

SpeechDx的創新之處在於根據語音產生的階段來組織任務:概念化(conceptualization)、構詞(formulation)和發音(articulation)。概念化階段涉及思維形成和意圖規劃,構詞階段涉及語法和詞彙選擇,發音階段涉及肌肉協調和聲音產生。這種結構使得評估能夠聚焦於共同的臨牀機制,例如,構音障礙可能反映發音階段的損傷,而失語症則可能影響概念化或構詞階段。基準測試通過包含少量標註數據的任務,並在多個數據集上評估同一健康狀況,來測試模型的泛化能力,從而區分臨牀上有效的模式與數據集偽影。例如,一個模型在來自醫院A的帕金森病數據集上表現良好,但在來自醫院B的數據集上表現下降,這可能表明模型學到了數據集的特定特徵而非通用疾病標誌。

研究團隊系統評估了12種最先進的音頻編碼器,包括大規模預訓練語音模型(如Wav2Vec 2.0、HuBERT)和領域特定模型(如針對病理語音優化的編碼器)。評估涵蓋了所有27個任務,並進行了零樣本跨條件遷移測試,即在一組疾病上訓練,在另一組疾病上測試。結果表明,大規模語音模型在整體上表現最為強勁,尤其是在跨條件遷移場景中,而領域特定模型僅在與其訓練任務高度匹配的任務上有所提升。然而,沒有任何一種表示能夠在所有任務和條件下可靠地泛化,説明通用臨牀語音表示仍是一個未解決的問題。

SpeechDx旨在建立一個共同的評估框架,以跟蹤通用臨牀語音表示的進展。它提供了標準化的數據劃分、評估指標和基線結果,使研究人員能夠公平比較不同方法。此外,SpeechDx還開放了代碼和數據集指南,鼓勵社區參與和改進。這項工作的意義在於,它為臨牀語音AI從孤立研究向統一發展邁出了關鍵一步,有望加速AI在疾病篩查、遠程監測和輔助診斷中的實際應用。