AI News HubLIVE
站内改写4 分钟阅读

物理人工智能的'点球成金'法则

本文将'点球成金'概念——利用数据驱动的统计分析发现低估资产——应用于物理人工智能领域。文章认为,机器人数据目前定价错误,过度强调数据量和遥操作时长,而忽视了数据的新颖性和边际效用。通过分析规模法则和数据采集的经济学,文章提出,物理AI的资本效率取决于准确计算和定价数据的新颖性,而非最大化数据量。

来源Hacker News AI作者: gmays

2002年,奥克兰运动家队以全联盟第三低的薪资赢得了103场比赛。这一优势源于球员资产市场的错误定价:传统球探偏爱主观审美、盗垒和击球率,而前瞻性的管理层用数学方法锁定了上垒率——这才是真正与得分相关的统计量。在满是直觉型专家的领域中,找到正确的统计信号:这就是“点球成金”!

物理人工智能的数据同样被误解和错误定价。数据并非天然存在,而是有固有的创造代价。我们必须超越以小时或token计量的简单规模化思维。被规模化迷惑的人往往“相信数据”,但不同于文本,机器人数据无法直接挖掘。每一个有用的数据小时都需要付费,因此采集规模线性增长而成本不会下降。最近,肯·戈德伯格估计,前沿机器人模型可能需要大约10万年的数据。

人工智能革命不会通过血汗工厂式的远程操作来完成。为了绕过这一瓶颈,业界扩大了手动远程操作基础设施。然而,优化累积操作时间正是早期棒球中“击球率”谬误的再现:它优先考虑一个可见、易于投资的指标,而该指标与最终模型性能的相关性很弱。另一种策略是将机器人投入生产,作为运营收入的零成本副产品来收集遥测数据。这种模式引入了同一统计错误的微妙版本。如今能够部署的利基市场正是方差最小、产生低熵且相关性强的数据流,边际效用极小。

本文构建了一个数据边际效用的框架,并以此讨论物理AI中的价值积累。我们从规模法则的角度出发,探讨损失如何随数据变化,以及决定一美元数据价值的单位经济。两者共同给出了每美元的近似边际效用——物理AI的上垒率。资本效率不是通过最大化数据量,而是通过准确计算和定价数据的新颖性来实现。

  1. 数据供应链中的利益相关者偏见

不同利益相关者对数据有不同的看法。巧合的是,每种世界观恰好使其自身的部分最有价值。基础模型实验室推广规模化,因此过度强调大规模预训练的作用,假设原始计算规模的扩展最终会消除边缘案例错误。远程操作为基础设施,优先并商业化原始操作时间,其收入随数据量而非效用或新颖性增长。硬件供应商假设环境是平稳的,因为他们的解决方案在分布外失败。而一大群学术机器人学家否认这是数据问题,期望物理、模型和控制能填补空白,无需数据洪流。

需要分析的关键原型是新集成者。该模型试图通过将专用机器人单元投入商业生产来绕过数据收集瓶颈,利用人类引导的监督来管理运行失败。其核心论点依赖于一个未经证实的飞轮:生产遥测数据将产生训练多任务能力所需的新颖性。Evan Beard在Standard Bots对此进行了详细阐述。Kyle Vedder则反对先部署,认为愿意为早期部署付费的环境天然低方差,从而产生了“新颖性泵”约束。

我们通过一个结合经验规模法则和数据捕获单位经济的中立框架来分析这一争论,精确找出哪种分配策略能带来每美元最高的模型能力。

  1. 机器人数据的分类

物理AI中的数据操作涵盖三种模态,每种由成本和信息密度之间的权衡定义:观察数据(低成本、高广度、缺乏动作的语料库,如自我中心和非自我中心的视频)、干预数据(高成本、低广度、动作密集的演示,如远程操作)和部署数据(生产系统产生的内生遥测数据,往往亏损运行)。数据最大化常常引入低熵噪声,降低训练效率。正如语言建模中C4数据集所示,子集滤除能带来模型改进。

作为利益相关者,我们需要问:每种数据的一美元能买到什么?新信息来自哪里?部署——我们付费收集的数据——能否拓宽可部署的任务集,还是很快枯竭?评估数据管道是一个资本分配问题:平衡数据的边际成本与新颖信息及推进模型泛化能力的能力。

  1. 规模法则告诉我们什么?

规模法则文献回答了语言模型上的这些问题。数据集的本质不仅在于其大小,还在于包含多少个不同样本、混合的多样性、每个样本重复的频率,以及新数据与现有数据的接近程度。

3.1 更多数据有帮助吗?

是的,但呈幂律递减,直至下限。测试损失随数据、模型大小和计算量的对数-对数直线下降。在计算最优分配下,两个可减项以数据速率衰减,合并为一维包络线。常数E表示模型不可约的预测不确定性。

3.2 多样性有帮助吗?

是的,与数据量独立。多样化的数据混合同时产生两个效果:通过跨域迁移和扩展流形覆盖降低渐近误差下限,并增加数据集的内在维度。由于β与维度成反比,降低任务内在维度大致翻倍了缩放指数:损失曲线下降更快。但代价是收敛到不能泛化的较劣最优值。为了最大化泛化,预训练分布必须避免人为的低内在维度。数据混合定律将混合损失分解为正交的每域幂律和交叉耦合项。

3.3 重复有帮助吗?

重复在大约四个epoch内提供边际效用,之后快速衰减,最终损害能力。超过这个阈值,收益递减严重。过度索引狭窄数据部分会导致局部双下降异常并从根本上损害注意力机制。重复语料库中0.1%的样本100次会使8亿参数模型性能降至4亿参数基线。

3.4 数据几乎相同呢?

近似重复存在于一个效用连续体中。去除这些冗余能改善模型泛化,同时优化token预算。小扰动迫使模型在邻域内映射相同目标,起到隐式一致性正则化作用。因此近似重复效用极低。密集采样狭窄邻域会迅速饱和局部容量,损害模型性能。

3.5 长尾发现呢?

罕见、分布外的事件产生超大的边际效用,因为模型性能在规模化极限下受失败尾部限制。真实物理分布是重尾的;实现前沿准确性需要拟合这些稀有子群,它们共同构成大量总操作密度。因此,通过筛选高难度、低频样本优化语料库可以绕过标准幂律缩放限制。然而,随着已知分布扩大,剩余的新奇变体呈指数级稀少,驱动发现边际成本急剧上升。

总结:更多数据遵循幂律递减到下限;多样性平衡了降低下限与速率;重复收效甚微甚至有害;近似重复最弱;长尾稀有事例极具信息量但成本递增。

  1. 经济视角:每美元边际效用

在语言建模中,计算是约束,数据丰富且低成本。而机器人领域,有用数据受采集成本严格约束。因此,目标函数从最大化计算效率转向最大化每美元损失减少。全球能力目标建模为各任务簇的凸组合,每个簇有独立的缩放包络线。为了优化有限资本分配,资源支出必须在所有采集和整理渠道上平衡每美元边际价值。