2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:02 UTC+8

S-GAI：基于谱几何的Sigmoid MLP初始化方法——从数据集几何到网络权重

经典万能逼近定理证明了Sigmoid多层感知机的表达能力，但未规定如何初始化权重以编码数据分布的几何结构。本文提出S-GAI，一种针对单隐层Sigmoid MLP的谱几何感知初始化框架。该框架利用SVD为每个类别估计均值、主方向和谱尺度，通过能量阈值选择保留方向，并每个方向用两个Sigmoid门表示。这些类别特定的门构成共享的隐层，直接从训练集初始化。实验表明，S-GAI初始化的MLP比Xavier初始化具有更丰富的隐藏状态，在完全训练下达到相近的最终精度；冻结隐层时，只训练输出层仍优于冻结随机门。

来源arXiv Machine Learning作者: Yi-Shan Chu

经典万能逼近定理早已证明，Sigmoid多层感知机（MLP）具有强大的表达能力，但如何为网络权重赋予初始值，使其能够编码数据分布的几何结构，这一直是一个悬而未决的问题。来自研究者Yi-Shan Chu的最新工作提出了S-GAI（Spectral Geometry-Aware Initialization），一种针对单隐层Sigmoid MLP的谱几何感知初始化框架，旨在从数据集的几何特性出发，为网络提供更优的起点。

S-GAI的核心思想源于将Sigmoid单元视为平滑的半空间门控。传统方法常依赖手工指定的平面几何，而S-GAI则转向从图像数据中估计的类别谱几何。具体而言，对于每个类别，该方法通过奇异值分解（SVD）计算均值、主方向以及谱尺度。随后，利用能量阈值筛选出最重要的方向，每个保留方向由两个Sigmoid门表示。这些类别特定的门组合成一个共享的隐藏层，其权重直接由训练集初始化，从而将数据几何结构嵌入网络。

为了验证所估计的谱类别几何是否已具备判别性，研究者还设计了一个基于SVD的子空间分类器作为非神经网络的几何参考。实验在MNIST、Fashion-MNIST以及更具挑战性的CIFAR-10数据集上进行。结果显示，采用S-GAI初始化的MLP，其隐藏状态从一开始就比Xavier初始化包含更多信息；在完整训练后，两者能达到相近的最终准确率。特别地，当隐藏层被冻结、仅训练输出层时，S-GAI初始化的网络性能显著优于使用随机门的冻结隐层，这有力证明了S-GAI能够有效地将类别谱几何嵌入到MLP的初始权重中。这一工作为利用数据几何指导神经网络初始化提供了新思路，未来可能扩展到深层网络和其他激活函数。此外，S-GAI的计算开销主要集中在训练前的SVD分解，实际训练过程中不增加额外负担，具有较好的实用潜力。该研究成果已在arXiv上发布，代码预计将开源，有望推动相关领域的进一步探索。