形状、对称与结构:数学在机器学习研究中不断变化的角色
本文探讨了数学在机器学习研究中的角色演变。尽管大规模计算和数据驱动的方法取得了显著成功,但数学仍然至关重要,只是其作用从提供理论保证转向了事后解释和高层次设计。文章展示了内在维度、曲率、拓扑学、对称性和范畴论等数学概念如何帮助理解深度学习的内部机制,并指出纯数学领域如拓扑学和几何学正与机器学习深度融合,为模型分析和设计提供新工具。
近十年来,机器学习研究的范式发生了显著转变。精心设计、基于数学原理的架构只能带来边际改进,而依赖大规模计算和工程优先的方法,通过扩展训练数据和模型参数,实现了现有理论无法预测的新能力。数学和统计学曾经是机器学习的主要指南,如今却难以直接解释最新的突破。这并不是理论首次落后于实证,但最近的进展规模迫使学界再次反思“苦涩教训”的含义。
这一转变引发了对数学在未来机器学习研究中角色的广泛讨论。显然,数学需要与更广泛的视角共享舞台,例如生物学在理解不可简化的复杂系统方面的经验,以及社会科学在AI深入融入社会后的洞见。然而,本文认为数学仍然至关重要,只是其角色正在演变。数学可能不再主要提供模型性能的理论保证,而是用于对训练和性能中的经验现象进行事后解释,类似其在物理学中的作用。数学直觉也可能从微观特征设计转向高层次选择,例如将架构与数据对称性匹配。
向规模化转变的一个有趣后果是,它拓宽了适用于机器学习的数学领域。拓扑学、代数和几何等“纯数学”领域正加入概率论、分析和线性代数等传统应用领域。这些纯数学领域在过去一个世纪中发展到处理高度抽象和复杂性,帮助数学家做出关于空间、代数对象和组合过程的发现,这些发现初看似乎超出人类直觉。这些能力有望解决现代深度学习的许多重大挑战。
工具:描述无法可视化的对象
尽管普遍认为数学家专注于解决问题,但研究数学往往涉及理解正确的问题。许多数学对象远离日常经验,需要建立工具来利用现有直觉。例如,旋转概念在2维和3维空间很熟悉,但高维时直觉失效。数学家通过找到空间概念的泛化来应对。
- 内在维度:数据或表示实际变化的独立方式数量。研究表明,数据集的内在维度与泛化能力相关,并能解释不同领域的模型性能差异。内在维度还用于检测对抗样本、AI生成内容和生成模型中的幻觉。
- 曲率:测量点附近区域偏离线性的程度。曲率在分析损失景观、理解“稳定性边缘”现象以及决策边界对抗鲁棒性中发挥核心作用。
- 拓扑学:关注空间的全局属性,如同调论计算空间中的孔洞数量。拓扑工具已用于展示神经网络如何逐层“解开”数据分布,预测最优早停时机,以及设计捕捉高阶关系的网络架构。
数据中的对称性,模型中的对称性
对称性是数学的核心主题,允许将问题分解为更简单的组件。在机器学习中,对称性通过群的概念数学化。等变性是指对输入应用对称变换后再通过模型,与先通过模型再应用变换得到相同结果。等变性可以减少参数数量和学习变化模式。
表示理论提供了构建等变层的系统方法,例如用于图像(旋转、反射)、分子结构(3D旋转)、集合和图(置换)等。尽管数据增强和规模化有时能学习对称性,但对于高度复杂的对称性,内置等变性可能仍然必要。
用抽象驯服复杂性
范畴论提供了一种基于映射组合的图式化视角,在数学中连接不同领域。在深度学习中,这种视角可用于设计神经网络架构。例如,纤维丛描述了局部看似乘积但全局存在扭转的空间。本文作者受此启发,设计了一种学习数据分布纤维丛结构的网络架构,用于条件生成任务。这种图式化方法允许将抽象的定义转化为具体的网络组件,通过损失函数强加条件。
结论
尽管数据和大规模计算在机器学习中表现出惊人的有效性,但数学的角色并未削弱,而是以新形式继续支持进步:提供分析复杂模型内部工作机制的工具;为高层架构决策提供框架;连接传统上孤立的数学领域。随着机器学习模型将越来越多数据数学化,这为数学提供了进入以往不可及领域的机会。挑战在于调整数学工具以适应这一新景观——实证突破常先于理论理解。通过拥抱这一转变,数学可以在塑造机器学习未来中继续发挥关键作用。