2026-06-05 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

预算受限的微预训练的分阶段因子筛选

该论文提出了一种分阶段分数因子筛选方法，以在预算紧张的情况下有效识别高惩罚超参数方向。通过613项实验，研究发现总批处理量、深度和宽度在短期预算内惩罚最大，随着预算增加而缓解。短时间设计筛选可帮助确认有前景的锚点并局部优化，支持以60分钟桥接锚点为中心的建议，但排名不是硬件不变的。

来源arXiv Machine Learning作者: Felipe Chavarro Polania

一项新研究探讨了在预算受限的微预训练中，如何通过分阶段分数因子筛选来有效分配有限的加速器资源。该研究由Felipe Chavarro Polania进行，在固定的单GPU训练循环上运行了613项实验，涵盖了从2分钟、5分钟到10分钟的试点和后续筛选，以及更长时间的全因子重复实验。实验设计包括16种条件的预注册种子全屏、目标种子锚点检查、同主机贪心和匹配成本的随机基线、60分钟桥接包，以及Windows A100和Linux L40S主机上长达24小时的锚点延续。研究发现，总批处理量、深度和宽度等主要因素在短期预算内对模型性能的惩罚最大，但随着预算增加，这些惩罚逐渐放松。在预注册的种子全屏系列中，经过预算内Benjamini-Hochberg校正后，D、A、B和C因子在5分钟和10分钟后仍保持非零估计，而E因子则未通过检验。随机搜索虽然能在32个条件的空间中达到强基线，但往往重复落入同一低惩罚区域，且无法进行因子归因。60分钟桥接锚点具有最低的平均损失，但该实验包无法将工作流优化与更大模型的能力优势分离。在12小时和24小时的扩展实验中，桥接锚点的样本均值最低，而非桥接锚点的排序则对主机敏感。因此，研究者建议使用短时间设计筛选来识别高惩罚方向，通过重复运行确认有前景的锚点，然后在缩小后的空间内进行局部优化。证据支持以桥接锚点为中心的策略适用于24小时内的两种主机，但并非硬件不变的排名或通用的超参数优化方法。该研究为预算有限的实验室提供了实用的超参数搜索策略，强调在有限预算下高效筛选的重要性，并提醒研究者注意硬件依赖性和排名不稳定性。