AI News HubLIVE
站内改写1 分钟阅读

预算受限的微预训练的分阶段因子筛选

该论文提出了一种分阶段分数因子筛选方法,以在预算紧张的情况下有效识别高惩罚超参数方向。通过613项实验,研究发现总批处理量、深度和宽度在短期预算内惩罚最大,随着预算增加而缓解。短时间设计筛选可帮助确认有前景的锚点并局部优化,支持以60分钟桥接锚点为中心的建议,但排名不是硬件不变的。

来源arXiv Machine Learning作者: Felipe Chavarro Polania

一项新研究探讨了在预算受限的微预训练中,如何通过分阶段分数因子筛选来有效分配有限的加速器资源。该研究由Felipe Chavarro Polania进行,在固定的单GPU训练循环上运行了613项实验,涵盖了从2分钟、5分钟到10分钟的试点和后续筛选,以及更长时间的全因子重复实验。实验设计包括16种条件的预注册种子全屏、目标种子锚点检查、同主机贪心和匹配成本的随机基线、60分钟桥接包,以及Windows A100和Linux L40S主机上长达24小时的锚点延续。研究发现,总批处理量、深度和宽度等主要因素在短期预算内对模型性能的惩罚最大,但随着预算增加,这些惩罚逐渐放松。在预注册的种子全屏系列中,经过预算内Benjamini-Hochberg校正后,D、A、B和C因子在5分钟和10分钟后仍保持非零估计,而E因子则未通过检验。随机搜索虽然能在32个条件的空间中达到强基线,但往往重复落入同一低惩罚区域,且无法进行因子归因。60分钟桥接锚点具有最低的平均损失,但该实验包无法将工作流优化与更大模型的能力优势分离。在12小时和24小时的扩展实验中,桥接锚点的样本均值最低,而非桥接锚点的排序则对主机敏感。因此,研究者建议使用短时间设计筛选来识别高惩罚方向,通过重复运行确认有前景的锚点,然后在缩小后的空间内进行局部优化。证据支持以桥接锚点为中心的策略适用于24小时内的两种主机,但并非硬件不变的排名或通用的超参数优化方法。该研究为预算有限的实验室提供了实用的超参数搜索策略,强调在有限预算下高效筛选的重要性,并提醒研究者注意硬件依赖性和排名不稳定性。