2024-11-17 00:46 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

形狀、對稱與結構：數學在機器學習研究中不斷變化的角色

本文探討了數學在機器學習研究中的角色演變。儘管大規模計算和數據驅動的方法取得了顯著成功，但數學仍然至關重要，只是其作用從提供理論保證轉向了事後解釋和高層次設計。文章展示了內在維度、曲率、拓撲學、對稱性和範疇論等數學概念如何幫助理解深度學習的內部機制，並指出純數學領域如拓撲學和幾何學正與機器學習深度融合，為模型分析和設計提供新工具。

來源The Gradient作者: Henry Kvinge

近十年來，機器學習研究的範式發生了顯著轉變。精心設計、基於數學原理的架構只能帶來邊際改進，而依賴大規模計算和工程優先的方法，通過擴展訓練數據和模型參數，實現了現有理論無法預測的新能力。數學和統計學曾經是機器學習的主要指南，如今卻難以直接解釋最新的突破。這並不是理論首次落後於實證，但最近的進展規模迫使學界再次反思“苦澀教訓”的含義。

這一轉變引發了對數學在未來機器學習研究中角色的廣泛討論。顯然，數學需要與更廣泛的視角共享舞台，例如生物學在理解不可簡化的複雜系統方面的經驗，以及社會科學在AI深入融入社會後的洞見。然而，本文認為數學仍然至關重要，只是其角色正在演變。數學可能不再主要提供模型性能的理論保證，而是用於對訓練和性能中的經驗現象進行事後解釋，類似其在物理學中的作用。數學直覺也可能從微觀特徵設計轉向高層次選擇，例如將架構與數據對稱性匹配。

向規模化轉變的一個有趣後果是，它拓寬了適用於機器學習的數學領域。拓撲學、代數和幾何等“純數學”領域正加入概率論、分析和線性代數等傳統應用領域。這些純數學領域在過去一個世紀中發展到處理高度抽象和複雜性，幫助數學家做出關於空間、代數對象和組合過程的發現，這些發現初看似乎超出人類直覺。這些能力有望解決現代深度學習的許多重大挑戰。

工具：描述無法可視化的對象

儘管普遍認為數學家專注於解決問題，但研究數學往往涉及理解正確的問題。許多數學對象遠離日常經驗，需要建立工具來利用現有直覺。例如，旋轉概念在2維和3維空間很熟悉，但高維時直覺失效。數學家通過找到空間概念的泛化來應對。

內在維度：數據或表示實際變化的獨立方式數量。研究表明，數據集的內在維度與泛化能力相關，並能解釋不同領域的模型性能差異。內在維度還用於檢測對抗樣本、AI生成內容和生成模型中的幻覺。
曲率：測量點附近區域偏離線性的程度。曲率在分析損失景觀、理解“穩定性邊緣”現象以及決策邊界對抗魯棒性中發揮核心作用。
拓撲學：關注空間的全局屬性，如同調論計算空間中的孔洞數量。拓撲工具已用於展示神經網絡如何逐層“解開”數據分佈，預測最優早停時機，以及設計捕捉高階關係的網絡架構。

數據中的對稱性，模型中的對稱性

對稱性是數學的核心主題，允許將問題分解為更簡單的組件。在機器學習中，對稱性通過羣的概念數學化。等變性是指對輸入應用對稱變換後再通過模型，與先通過模型再應用變換得到相同結果。等變性可以減少參數數量和學習變化模式。

表示理論提供了構建等變層的系統方法，例如用於圖像（旋轉、反射）、分子結構（3D旋轉）、集合和圖（置換）等。儘管數據增強和規模化有時能學習對稱性，但對於高度複雜的對稱性，內置等變性可能仍然必要。

用抽象馴服複雜性

範疇論提供了一種基於映射組合的圖式化視角，在數學中連接不同領域。在深度學習中，這種視角可用於設計神經網絡架構。例如，纖維叢描述了局部看似乘積但全局存在扭轉的空間。本文作者受此啓發，設計了一種學習數據分佈纖維叢結構的網絡架構，用於條件生成任務。這種圖式化方法允許將抽象的定義轉化為具體的網絡組件，通過損失函數強加條件。

結論

儘管數據和大規模計算在機器學習中表現出驚人的有效性，但數學的角色並未削弱，而是以新形式繼續支持進步：提供分析複雜模型內部工作機制的工具；為高層架構決策提供框架；連接傳統上孤立的數學領域。隨着機器學習模型將越來越多數據數學化，這為數學提供了進入以往不可及領域的機會。挑戰在於調整數學工具以適應這一新景觀——實證突破常先於理論理解。通過擁抱這一轉變，數學可以在塑造機器學習未來中繼續發揮關鍵作用。