AI News HubLIVE
站内改写2 分钟阅读

解读当今开源与闭源模型的性能差距

开源模型与闭源模型之间的性能差距并非单一数字所能概括,而是涉及基准测试的演变、实际应用表现以及训练范式的转变。文章分析了这一动态变化,指出基准测试的可信度下降,以及前沿实验室为维持收入而不断自我革新的经济压力。同时,中国实验室的开源模型在基准测试上表现出色,但在鲁棒性和实际应用中仍有差距。

来源Interconnects (Nathan Lambert)作者: Nathan Lambert

当前,开源模型似乎永远在追赶闭源模型的路上,但这种差距被简化为一个单一数字——比如人工分析智能指数(Artificial Analysis Intelligence Index)——掩盖了模型能力覆盖范围的复杂且关键动态。该指数由约10个子评估组成,旨在捕捉语言模型能力的“前沿”。然而,我花了大量时间研究这种动态如何被误解,因为人们倾向于将性能和趋势简化为一个数字。

基准测试本身也在演变。随着时间推移,它们与实际使用表现的相关性时高时低。不同的模型在真实世界中的表现与其基准排名之间的关系并不总是对应的。此外,训练方法也在变化,进一步影响了基准测试的适用性。例如,Gemini 3的基准分数惊人,但在当前AI工具测试和部署的重点领域——代理任务——中却显得无足轻重,这暴露了测量方法的固有缺陷。

这种动态的核心是行业不断变化。大约每12到18个月,基准测试的关注点就会转移一次。不同的关注领域对应着截然不同的训练域,特别是在后训练阶段。一个范式持续得越久,行业就越擅长测量其性能。然而,在快速后训练改进的新时代,我对基准测试的信心反而降到了相对最低点。

自ChatGPT问世以来,焦点从聊天、数学和简单代码,转变为更复杂的编码和代理任务。如今,强化学习与可验证奖励(RLVR)成为主导训练方法,但应用领域已从简单的问答检查扩展到复杂环境。前沿实验室投入巨资掌握当前焦点——如代码和终端任务——同时开始涉足更专业的知识工作,如会计、法律和医疗保健。这些新任务仍然是代理性质的,但需要更多专业知识和与现有软件的集成。

评估这些复杂语言模型工作流本身就是一个具有挑战性的研究问题。任务越来越难,所需数据也越来越私密(相对于GitHub上大量的代码)。领先的开源模型实验室受益于数据行业的经济动态,类似于建造芯片工厂:美国少数前沿实验室支付天文数字购买新环境和数据集,而快速跟随的实验室(通常在中国)后来以大幅折扣购买。这关键的一点常被忽略:非前沿实验室追赶的杠杆随时间不断变化。认为蒸馏是中国模型进步的关键杠杆,忽略了对当前训练范式中强化学习环境重要性的认识。如果能够构建出与人工分析智能指数中单项评估相似的环境,中国实验室就能保持追赶。

值得思考的问题是:当前任务集的紧迫性——即编码和终端任务——对于维持前沿实验室的收入增长有多关键?如果代理编码能力饱和,AI性能的“前沿”转移到别处,那么大量企业收入可能更多依赖于客户关系、惯性和更好的产品开发,而非模型本身的绝对优势。这种不稳定的位置迫使前沿实验室不断自我革新,以证明大规模AI基础设施建设的价值。我仍然倾向于认为这一建设是值得的,Anthropic和OpenAI将成为利润极高的企业,但这需要他们持续解锁有吸引力、有价值的新用例,同时开源模型逼近的基准并非完整信号。

我推定中国领先的开源模型比美国前沿实验室更注重基准测试,因为他们有动机展示出紧追最先进闭源模型的形象。但说中国实验室只靠过度拟合基准来维持叙事是极其天真的。他们的模型确实强大,而过度推销与真正创新的平衡很微妙。在分布外的基准如WeirdML或ARC AGI 2上,开源模型远远落后;但在无数随机基准上,它们又出人意料地强。实际使用中,你能感受到鲁棒性的缺失(例如长上下文能力不足,需要比Claude/Codex更频繁地重置代理上下文),但它们并非根本不同类别的模型,比许多人预期的要接近得多。开源模型能追赶多久?这仍是一个开放问题。