2026-06-19站内改写2 分钟阅读更新: 2026-06-19

AI核心的数据黑洞

本文认为，样本效率（即AI学习所需的数据量）并未显著提升，进步主要来自数据和计算的大规模扩展。人类专家数据特定且海量，是AI进步的关键驱动力，使得开源模型能迅速追赶前沿。尽管训练效率极低，但为常见任务训练AI仍具经济价值，然而超出分布范围的推理问题仍未解决。

来源Hacker News AI作者: jedixit

本文将智能定义为样本效率——即在一个领域内流畅且胜任地操作所需的数据量。近年来，训练样本效率几乎没有提升，AI的进步主要来自数据分布的拓宽和质量的改善，以及用于生成这些数据的计算规模扩展。强化学习作为一种合成数据生成方式，通过大量计算与验证器寻找“好”的数据，然后训练模型预测这些正确轨迹，类似于预测互联网文本中的下一个词。

然而，这一过程高度依赖人类专家在每个领域提供的大量示例。每个技能都需要数百名专家生成示例、编写评分标准并解释思维过程。数据产业因此每年收入数十亿美元，并很快将突破百亿。AI学习一个看似简单的任务（如整理Word文件）所需的训练量，可能相当于人类数十年的课程、数百名教授和数百万道练习题，而AI还需为每个任务生成数百至数千次轨迹。

Epoch报告指出，开源模型仅落后前沿封闭模型4个月。作者认为，数据是进步的主要驱动力，而数据易于从公共API中提取，超参数和训练技巧则难以复制，这解释了为何追赶相对容易。AI模型训练的数据量远超人类一生所见——前沿模型训练于数万亿token，人类从出生到成年仅接触约2亿token，差距近百万倍。

对比人类与AI的样本效率，一名青少年约20小时就能学会开车，而自动驾驶模型需要多几个数量级的数据。针对进化作为预训练的反驳，作者指出人类基因组仅3GB，无法存储大型模型参数；多模态数据也非关键，因为聋哑人仅通过语言即可拥有通用智能。缩放定律表明，即使无限增加参数，也仅能减少约10倍的数据需求，而人类样本效率高出数千至数百万倍，意味着人类处于不同的缩放曲线上。

样本效率是否重要？对于白领工作，常见任务可通过RL和SFT轻松纳入分布，即使训练效率极低，但能力可分摊至数十亿会话，经济上仍可行。然而，软件工程等需要分布外推理的工作，AI仍难以胜任。实验室计划先自动化AI研究，再由AI研究者解决样本效率问题。作者将在后续文章中探讨，缺乏人类级样本效率的AI能否最终实现人类级智能。