形狀、對稱與結構:數學在機器學習研究中不斷變化的角色
本文探討了數學在機器學習研究中的角色演變。儘管大規模計算和數據驅動的方法取得了顯著成功,但數學仍然至關重要,只是其作用從提供理論保證轉向了事後解釋和高層次設計。文章展示了內在維度、曲率、拓撲學、對稱性和範疇論等數學概念如何幫助理解深度學習的內部機制,並指出純數學領域如拓撲學和幾何學正與機器學習深度融合,為模型分析和設計提供新工具。
近十年來,機器學習研究的範式發生了顯著轉變。精心設計、基於數學原理的架構只能帶來邊際改進,而依賴大規模計算和工程優先的方法,通過擴展訓練數據和模型參數,實現了現有理論無法預測的新能力。數學和統計學曾經是機器學習的主要指南,如今卻難以直接解釋最新的突破。這並不是理論首次落後於實證,但最近的進展規模迫使學界再次反思“苦澀教訓”的含義。
這一轉變引發了對數學在未來機器學習研究中角色的廣泛討論。顯然,數學需要與更廣泛的視角共享舞台,例如生物學在理解不可簡化的複雜系統方面的經驗,以及社會科學在AI深入融入社會後的洞見。然而,本文認為數學仍然至關重要,只是其角色正在演變。數學可能不再主要提供模型性能的理論保證,而是用於對訓練和性能中的經驗現象進行事後解釋,類似其在物理學中的作用。數學直覺也可能從微觀特徵設計轉向高層次選擇,例如將架構與數據對稱性匹配。
向規模化轉變的一個有趣後果是,它拓寬了適用於機器學習的數學領域。拓撲學、代數和幾何等“純數學”領域正加入概率論、分析和線性代數等傳統應用領域。這些純數學領域在過去一個世紀中發展到處理高度抽象和複雜性,幫助數學家做出關於空間、代數對象和組合過程的發現,這些發現初看似乎超出人類直覺。這些能力有望解決現代深度學習的許多重大挑戰。
工具:描述無法可視化的對象
儘管普遍認為數學家專注於解決問題,但研究數學往往涉及理解正確的問題。許多數學對象遠離日常經驗,需要建立工具來利用現有直覺。例如,旋轉概念在2維和3維空間很熟悉,但高維時直覺失效。數學家通過找到空間概念的泛化來應對。
- 內在維度:數據或表示實際變化的獨立方式數量。研究表明,數據集的內在維度與泛化能力相關,並能解釋不同領域的模型性能差異。內在維度還用於檢測對抗樣本、AI生成內容和生成模型中的幻覺。
- 曲率:測量點附近區域偏離線性的程度。曲率在分析損失景觀、理解“穩定性邊緣”現象以及決策邊界對抗魯棒性中發揮核心作用。
- 拓撲學:關注空間的全局屬性,如同調論計算空間中的孔洞數量。拓撲工具已用於展示神經網絡如何逐層“解開”數據分佈,預測最優早停時機,以及設計捕捉高階關係的網絡架構。
數據中的對稱性,模型中的對稱性
對稱性是數學的核心主題,允許將問題分解為更簡單的組件。在機器學習中,對稱性通過羣的概念數學化。等變性是指對輸入應用對稱變換後再通過模型,與先通過模型再應用變換得到相同結果。等變性可以減少參數數量和學習變化模式。
表示理論提供了構建等變層的系統方法,例如用於圖像(旋轉、反射)、分子結構(3D旋轉)、集合和圖(置換)等。儘管數據增強和規模化有時能學習對稱性,但對於高度複雜的對稱性,內置等變性可能仍然必要。
用抽象馴服複雜性
範疇論提供了一種基於映射組合的圖式化視角,在數學中連接不同領域。在深度學習中,這種視角可用於設計神經網絡架構。例如,纖維叢描述了局部看似乘積但全局存在扭轉的空間。本文作者受此啓發,設計了一種學習數據分佈纖維叢結構的網絡架構,用於條件生成任務。這種圖式化方法允許將抽象的定義轉化為具體的網絡組件,通過損失函數強加條件。
結論
儘管數據和大規模計算在機器學習中表現出驚人的有效性,但數學的角色並未削弱,而是以新形式繼續支持進步:提供分析複雜模型內部工作機制的工具;為高層架構決策提供框架;連接傳統上孤立的數學領域。隨着機器學習模型將越來越多數據數學化,這為數學提供了進入以往不可及領域的機會。挑戰在於調整數學工具以適應這一新景觀——實證突破常先於理論理解。通過擁抱這一轉變,數學可以在塑造機器學習未來中繼續發揮關鍵作用。