基於DNA甲基化的中樞神經系統腫瘤分類新機器學習方法
研究人員提出了一種結合稀疏隨機投影和多項邏輯迴歸的機器學習方法,用於DNA甲基化資料的中樞神經系統腫瘤分類。在參考佇列中達到96%準確率,在獨立臨床佇列中達到86%(91類)和93%(家族級),較現有技術提升4-5個百分點,具有臨床意義。
近日,一篇發表在arXiv上的論文提出了一種創新的機器學習方法,用於基於DNA甲基化譜的中樞神經系統(CNS)腫瘤分類。該方法由Paulo R. Ferreira Jr.等七位研究人員開發,旨在解決現有分類方法在跨佇列遷移性、方法論正確性和穩健多類評估方面的挑戰。DNA甲基化分析已成為CNS腫瘤分類的有力工具,但現有方法在跨佇列泛化能力、方法學嚴謹性以及多類魯棒評估方面仍存在重大問題。該研究提出了一種新穎且方法學嚴謹的機器學習方法,結合了稀疏隨機投影(Sparse Random Projection)進行降維,以及多項邏輯迴歸(Multinomial Logistic Regression)進行分類。研究團隊在與廣泛使用的參考分類器相同的實驗設定下進行了綜合評估。在包含2801個樣本的參考佇列中,該方法在分層3折交叉驗證下達到了96%的平均準確率,顯示其在已知資料上的卓越效能。隨後,在包含1104個樣本的獨立臨床評估佇列中,該方法在91個腫瘤類別的精細分類中達到86%的準確率,而在甲基化類家族(即更寬泛的分類組)水平評估時準確率提升至93%。這些結果顯著優於現有的最新技術:參考方法在類別水平上的一致性為82%,家族水平一致性為88%。新方法分別提高了約4和5個百分點,這是絕對增益,具有直接的臨床意義。在診斷環境中,腫瘤分類正確率提高5個百分點可以直接影響癌症亞型分配,進而影響治療選擇和後續臨床決策。例如,更準確的分類有助於指導特定化療方案或靶向治療的應用。研究結果還表明,該模型基於更強的機器學習方法論實踐,如適當的降維和正則化,使其在各種評估設定下一致優於先前的最新方案,能夠實質性提高CNS腫瘤分類的可靠性。該研究為未來臨床應用提供了有前景的工具,尤其適用於基於DNA甲基化的精準診斷。該論文還討論了方法的設計選擇及其對實際部署的啟示。研究者表示,該方法有望整合到臨床工作流程中,輔助病理學家進行腫瘤分類。論文提交於2026年7月1日,目前可在arXiv上獲取。該工作得到了機器學習與基因組學交叉領域的關注,併為腫瘤分類的自動化提供了新的可能性。總之,該方法在準確性和方法學嚴謹性上均取得進展,為精準醫學做出了貢獻。