2026-06-08 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

合成基准夸大前向-前向缩放：层局部训练在真实数据上的局限性

本文提出DTG-FF方法，在前向-前向（FF）学习框架上实现了多个真实数据基准的最优性能，但发现：在真实数据上，反向传播（BP）仍显著优于FF，且差距随类别数增加而扩大；合成任务高估了FF的可扩展性；在同等硬件条件下，FF的内存优势并不成立。

来源arXiv Computer Vision作者: Yucheng Chen

前向-前向（Forward-Forward, FF）学习由Hinton于2022年提出，是一种使用层局部“ goodness”更新替代反向传播（Backpropagation, BP）的训练范式。近期基于卷积神经网络的FF方法在32x32尺寸基准上缩小了与BP的差距，引发了对其在真实规模下可行性的讨论。为严格评估这一方法，来自的研究团队开发了DTG-FF——一种结合动态温度 goodness、解耦归一化和多层融合的技术，在九项真实数据基准上取得了FF系列最佳表现，包括CIFAR-10上91.8%的准确率和首个ImageNet-100 224x224分辨率下的FF基线。然而，通过该工具，研究者揭示了层局部训练在实际缩放中的三大关键局限。

首先，在真实数据缩放方面，使用相同架构和训练配置的BP-DeepSup基线在CIFAR-10和CIFAR-100上分别超过DTG-FF 2.40和5.93个百分点，且性能差距随类别数量增加而扩大。在224x224分辨率下，DTG-FF仅达到49.4%的准确率，而典型BP方法可达75%以上（Tian等, 2020）。这一结果暴露了在32x32基准上不可见的真实数据性能天花板。

其次，合成任务与真实任务存在冲突。在合成教师-学生任务中，随着类别数K增加，DTG-FF的性能持续优于BP；然而在真实图像上，FF与BP的差距方向逆转且随K增大而加宽。通过CIFAR-100数据集内的粗粒度与细粒度分类对比实验，研究者发现合成任务混淆了输出维度与细粒度判别难度，从而高估了FF的迁移能力。

第三，系统层面的审计表明，FF并不具备声称的内存优势。尽管FF无需存储全网络激活值，但在普通8 GB硬件上，标准BP加梯度累积仅占用4.18 GB内存并达到157 imgs/s的吞吐量，而DTG-FF占用7.90 GB且吞吐量降至138 imgs/s。因此，在公平基线比较下，基于内存理由支持FF在现阶段缩放的说法无法成立。

该研究强调，尽管FF方法在合成环境中表现优异，但在真实数据、高分辨率及多类别场景下仍远逊于BP。未来层局部训练的研究需正视这些局限性，而非依赖合成基准的乐观结果。相关论文以“Synthetic Benchmarks Overstate Forward-Forward Scaling: Real-Data Limits of Layer-Local Training”为题发表于arXiv预印本（2606.06539）。