AI News HubLIVE
站内改写1 分钟阅读

S-GAI:基于谱几何的Sigmoid MLP初始化方法——从数据集几何到网络权重

经典万能逼近定理证明了Sigmoid多层感知机的表达能力,但未规定如何初始化权重以编码数据分布的几何结构。本文提出S-GAI,一种针对单隐层Sigmoid MLP的谱几何感知初始化框架。该框架利用SVD为每个类别估计均值、主方向和谱尺度,通过能量阈值选择保留方向,并每个方向用两个Sigmoid门表示。这些类别特定的门构成共享的隐层,直接从训练集初始化。实验表明,S-GAI初始化的MLP比Xavier初始化具有更丰富的隐藏状态,在完全训练下达到相近的最终精度;冻结隐层时,只训练输出层仍优于冻结随机门。

来源arXiv Machine Learning作者: Yi-Shan Chu

经典万能逼近定理早已证明,Sigmoid多层感知机(MLP)具有强大的表达能力,但如何为网络权重赋予初始值,使其能够编码数据分布的几何结构,这一直是一个悬而未决的问题。来自研究者Yi-Shan Chu的最新工作提出了S-GAI(Spectral Geometry-Aware Initialization),一种针对单隐层Sigmoid MLP的谱几何感知初始化框架,旨在从数据集的几何特性出发,为网络提供更优的起点。

S-GAI的核心思想源于将Sigmoid单元视为平滑的半空间门控。传统方法常依赖手工指定的平面几何,而S-GAI则转向从图像数据中估计的类别谱几何。具体而言,对于每个类别,该方法通过奇异值分解(SVD)计算均值、主方向以及谱尺度。随后,利用能量阈值筛选出最重要的方向,每个保留方向由两个Sigmoid门表示。这些类别特定的门组合成一个共享的隐藏层,其权重直接由训练集初始化,从而将数据几何结构嵌入网络。

为了验证所估计的谱类别几何是否已具备判别性,研究者还设计了一个基于SVD的子空间分类器作为非神经网络的几何参考。实验在MNIST、Fashion-MNIST以及更具挑战性的CIFAR-10数据集上进行。结果显示,采用S-GAI初始化的MLP,其隐藏状态从一开始就比Xavier初始化包含更多信息;在完整训练后,两者能达到相近的最终准确率。特别地,当隐藏层被冻结、仅训练输出层时,S-GAI初始化的网络性能显著优于使用随机门的冻结隐层,这有力证明了S-GAI能够有效地将类别谱几何嵌入到MLP的初始权重中。这一工作为利用数据几何指导神经网络初始化提供了新思路,未来可能扩展到深层网络和其他激活函数。此外,S-GAI的计算开销主要集中在训练前的SVD分解,实际训练过程中不增加额外负担,具有较好的实用潜力。该研究成果已在arXiv上发布,代码预计将开源,有望推动相关领域的进一步探索。