2024-11-17 00:46 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

形状、对称与结构：数学在机器学习研究中不断变化的角色

本文探讨了数学在机器学习研究中的角色演变。尽管大规模计算和数据驱动的方法取得了显著成功，但数学仍然至关重要，只是其作用从提供理论保证转向了事后解释和高层次设计。文章展示了内在维度、曲率、拓扑学、对称性和范畴论等数学概念如何帮助理解深度学习的内部机制，并指出纯数学领域如拓扑学和几何学正与机器学习深度融合，为模型分析和设计提供新工具。

来源The Gradient作者: Henry Kvinge

近十年来，机器学习研究的范式发生了显著转变。精心设计、基于数学原理的架构只能带来边际改进，而依赖大规模计算和工程优先的方法，通过扩展训练数据和模型参数，实现了现有理论无法预测的新能力。数学和统计学曾经是机器学习的主要指南，如今却难以直接解释最新的突破。这并不是理论首次落后于实证，但最近的进展规模迫使学界再次反思“苦涩教训”的含义。

这一转变引发了对数学在未来机器学习研究中角色的广泛讨论。显然，数学需要与更广泛的视角共享舞台，例如生物学在理解不可简化的复杂系统方面的经验，以及社会科学在AI深入融入社会后的洞见。然而，本文认为数学仍然至关重要，只是其角色正在演变。数学可能不再主要提供模型性能的理论保证，而是用于对训练和性能中的经验现象进行事后解释，类似其在物理学中的作用。数学直觉也可能从微观特征设计转向高层次选择，例如将架构与数据对称性匹配。

向规模化转变的一个有趣后果是，它拓宽了适用于机器学习的数学领域。拓扑学、代数和几何等“纯数学”领域正加入概率论、分析和线性代数等传统应用领域。这些纯数学领域在过去一个世纪中发展到处理高度抽象和复杂性，帮助数学家做出关于空间、代数对象和组合过程的发现，这些发现初看似乎超出人类直觉。这些能力有望解决现代深度学习的许多重大挑战。

工具：描述无法可视化的对象

尽管普遍认为数学家专注于解决问题，但研究数学往往涉及理解正确的问题。许多数学对象远离日常经验，需要建立工具来利用现有直觉。例如，旋转概念在2维和3维空间很熟悉，但高维时直觉失效。数学家通过找到空间概念的泛化来应对。

内在维度：数据或表示实际变化的独立方式数量。研究表明，数据集的内在维度与泛化能力相关，并能解释不同领域的模型性能差异。内在维度还用于检测对抗样本、AI生成内容和生成模型中的幻觉。
曲率：测量点附近区域偏离线性的程度。曲率在分析损失景观、理解“稳定性边缘”现象以及决策边界对抗鲁棒性中发挥核心作用。
拓扑学：关注空间的全局属性，如同调论计算空间中的孔洞数量。拓扑工具已用于展示神经网络如何逐层“解开”数据分布，预测最优早停时机，以及设计捕捉高阶关系的网络架构。

数据中的对称性，模型中的对称性

对称性是数学的核心主题，允许将问题分解为更简单的组件。在机器学习中，对称性通过群的概念数学化。等变性是指对输入应用对称变换后再通过模型，与先通过模型再应用变换得到相同结果。等变性可以减少参数数量和学习变化模式。

表示理论提供了构建等变层的系统方法，例如用于图像（旋转、反射）、分子结构（3D旋转）、集合和图（置换）等。尽管数据增强和规模化有时能学习对称性，但对于高度复杂的对称性，内置等变性可能仍然必要。

用抽象驯服复杂性

范畴论提供了一种基于映射组合的图式化视角，在数学中连接不同领域。在深度学习中，这种视角可用于设计神经网络架构。例如，纤维丛描述了局部看似乘积但全局存在扭转的空间。本文作者受此启发，设计了一种学习数据分布纤维丛结构的网络架构，用于条件生成任务。这种图式化方法允许将抽象的定义转化为具体的网络组件，通过损失函数强加条件。

结论

尽管数据和大规模计算在机器学习中表现出惊人的有效性，但数学的角色并未削弱，而是以新形式继续支持进步：提供分析复杂模型内部工作机制的工具；为高层架构决策提供框架；连接传统上孤立的数学领域。随着机器学习模型将越来越多数据数学化，这为数学提供了进入以往不可及领域的机会。挑战在于调整数学工具以适应这一新景观——实证突破常先于理论理解。通过拥抱这一转变，数学可以在塑造机器学习未来中继续发挥关键作用。