AI核心的数据黑洞
本文认为,样本效率(即AI学习所需的数据量)并未显著提升,进步主要来自数据和计算的大规模扩展。人类专家数据特定且海量,是AI进步的关键驱动力,使得开源模型能迅速追赶前沿。尽管训练效率极低,但为常见任务训练AI仍具经济价值,然而超出分布范围的推理问题仍未解决。
本文将智能定义为样本效率——即在一个领域内流畅且胜任地操作所需的数据量。近年来,训练样本效率几乎没有提升,AI的进步主要来自数据分布的拓宽和质量的改善,以及用于生成这些数据的计算规模扩展。强化学习作为一种合成数据生成方式,通过大量计算与验证器寻找“好”的数据,然后训练模型预测这些正确轨迹,类似于预测互联网文本中的下一个词。
然而,这一过程高度依赖人类专家在每个领域提供的大量示例。每个技能都需要数百名专家生成示例、编写评分标准并解释思维过程。数据产业因此每年收入数十亿美元,并很快将突破百亿。AI学习一个看似简单的任务(如整理Word文件)所需的训练量,可能相当于人类数十年的课程、数百名教授和数百万道练习题,而AI还需为每个任务生成数百至数千次轨迹。
Epoch报告指出,开源模型仅落后前沿封闭模型4个月。作者认为,数据是进步的主要驱动力,而数据易于从公共API中提取,超参数和训练技巧则难以复制,这解释了为何追赶相对容易。AI模型训练的数据量远超人类一生所见——前沿模型训练于数万亿token,人类从出生到成年仅接触约2亿token,差距近百万倍。
对比人类与AI的样本效率,一名青少年约20小时就能学会开车,而自动驾驶模型需要多几个数量级的数据。针对进化作为预训练的反驳,作者指出人类基因组仅3GB,无法存储大型模型参数;多模态数据也非关键,因为聋哑人仅通过语言即可拥有通用智能。缩放定律表明,即使无限增加参数,也仅能减少约10倍的数据需求,而人类样本效率高出数千至数百万倍,意味着人类处于不同的缩放曲线上。
样本效率是否重要?对于白领工作,常见任务可通过RL和SFT轻松纳入分布,即使训练效率极低,但能力可分摊至数十亿会话,经济上仍可行。然而,软件工程等需要分布外推理的工作,AI仍难以胜任。实验室计划先自动化AI研究,再由AI研究者解决样本效率问题。作者将在后续文章中探讨,缺乏人类级样本效率的AI能否最终实现人类级智能。