开放模型生态系统如何放大优势
文章指出,前沿模型的算力约80%用于研发而非最终训练。以中国为代表的开放生态系统通过共享减少重复研发成本。开放模型降低了未来开发成本,但部署成本高于闭源托管方案。作者呼吁建立开放模型联盟以维持竞争力。
在构建前沿模型的过程中,大部分计算资源(约80%)实际上被用于研究和开发,而非最终模型的一次性端到端训练。这一发现来自两项近期研究:Ai2对Olmo 3开发的记录,以及Epoch AI对多家前沿实验室公共成本文档的分析。在中国这样的生态系统中,所有主要参与者都采用开放模式,这种成本结构优势使得实验室能够在比外界预期更长时间内持续建设。
与开源软件(OSS)不同,开源AI的几乎所有成本都落在模型开发者身上。尽管如此,开放发布模型确实带来了巨大的好处——它不仅降低了开发者自身的未来开发和部署成本,更重要的是降低了整个生态系统的成本。然而,开放AI模型、工具和基础设施带来的成本降低主要体现在开发阶段,而非即插即用的产品级成本削减。对于仅需最小化迭代或内部开发的现成AI用户而言,使用开放模型往往更昂贵;而闭源集成托管解决方案则通过通用规模经济实现低价格。
中国实验室通过极其详尽的技术报告和实验室间的有意知识共享,有效地为同行公司降低了风险,减少了他们对资源的投入。要使这种模式奏效,目前AI公司常见的将开放源码工具分叉并演化为内部专用版本的做法可能需逐渐消失。例如,MoE模型的大规模RL训练目前尚无真正开放的配方。开放的堆栈越完整,共享的信息越多,未来迭代的成本就越低。
同样的原因也解释了为何不存在一个所有人都能共享的单一基础模型。如今打造最佳模型已成为整合硬件、数据和基础设施的艺术,同时需以较高速度演进以跟上前沿性能。考虑到LLM性能在未来几年将持续提升,这种平衡短期内不太可能改变。这正是作者此前提出开放模型联盟必要性的原因——这种共享资源效率更高,可能成为未来以开放模型竞争的唯一财务可行方式。
当然,闭源实验室也能从开放前沿模型公司的研究中获益,但由于它们通常在开发树上领先数月,因此从共享洞察中获益较少。开源社区越强大,各公司在同一帕累托性能曲线上保持相对接近的成本激励就越大。
这一关于开发成本差异的认知——即技术是过程导向而非共享基础——源自作者最近中国之行总结中收到的问题:中国生态系统是否有机会收敛于单一基础模型以节省成本?后续问题涉及中国开放权重公司是否以战略有意义的方式使用开源。还有更多相关问题值得探讨,尤其是在理解不同生态系统的运营模式时。
作者还推荐了Bill Gurley与Dan Wang(《Breakneck》作者)以及Patrick McGee(《Apple in China》作者)的访谈,该书深入比较了美中技术文化的最大差异。过去一年,中国AI生态系统中涌现出强烈的愿望,希望影响西方受众和思维方式——这也是SAIL团队最近访华获得如此广泛访问权限的原因。