AI News HubLIVE
站内改写2 分钟阅读

合成基准夸大前向-前向缩放:层局部训练在真实数据上的局限性

本文提出DTG-FF方法,在前向-前向(FF)学习框架上实现了多个真实数据基准的最优性能,但发现:在真实数据上,反向传播(BP)仍显著优于FF,且差距随类别数增加而扩大;合成任务高估了FF的可扩展性;在同等硬件条件下,FF的内存优势并不成立。

来源arXiv Computer Vision作者: Yucheng Chen

前向-前向(Forward-Forward, FF)学习由Hinton于2022年提出,是一种使用层局部“ goodness”更新替代反向传播(Backpropagation, BP)的训练范式。近期基于卷积神经网络的FF方法在32x32尺寸基准上缩小了与BP的差距,引发了对其在真实规模下可行性的讨论。为严格评估这一方法,来自的研究团队开发了DTG-FF——一种结合动态温度 goodness、解耦归一化和多层融合的技术,在九项真实数据基准上取得了FF系列最佳表现,包括CIFAR-10上91.8%的准确率和首个ImageNet-100 224x224分辨率下的FF基线。然而,通过该工具,研究者揭示了层局部训练在实际缩放中的三大关键局限。

首先,在真实数据缩放方面,使用相同架构和训练配置的BP-DeepSup基线在CIFAR-10和CIFAR-100上分别超过DTG-FF 2.40和5.93个百分点,且性能差距随类别数量增加而扩大。在224x224分辨率下,DTG-FF仅达到49.4%的准确率,而典型BP方法可达75%以上(Tian等, 2020)。这一结果暴露了在32x32基准上不可见的真实数据性能天花板。

其次,合成任务与真实任务存在冲突。在合成教师-学生任务中,随着类别数K增加,DTG-FF的性能持续优于BP;然而在真实图像上,FF与BP的差距方向逆转且随K增大而加宽。通过CIFAR-100数据集内的粗粒度与细粒度分类对比实验,研究者发现合成任务混淆了输出维度与细粒度判别难度,从而高估了FF的迁移能力。

第三,系统层面的审计表明,FF并不具备声称的内存优势。尽管FF无需存储全网络激活值,但在普通8 GB硬件上,标准BP加梯度累积仅占用4.18 GB内存并达到157 imgs/s的吞吐量,而DTG-FF占用7.90 GB且吞吐量降至138 imgs/s。因此,在公平基线比较下,基于内存理由支持FF在现阶段缩放的说法无法成立。

该研究强调,尽管FF方法在合成环境中表现优异,但在真实数据、高分辨率及多类别场景下仍远逊于BP。未来层局部训练的研究需正视这些局限性,而非依赖合成基准的乐观结果。相关论文以“Synthetic Benchmarks Overstate Forward-Forward Scaling: Real-Data Limits of Layer-Local Training”为题发表于arXiv预印本(2606.06539)。