Gemma 4 与开放模型成功的关键
本文探讨了2026年开放模型面临的竞争环境,评估开放模型成功的关键因素(性能、来源国、许可证、工具支持、微调能力),并重点分析了谷歌最新发布的Gemma 4系列。文章指出,开放模型的成功更多取决于易用性和生态支持,而非基准分数。
随着2026年的到来,开放模型的发布已从几年前寥寥无几的局面演变为一场激烈的竞争。当Meta的Llama 3发布时,大多数研究人员还在使用Llama 2,并乐于获得更新。而如今,一个开放模型发布时,它需要与Qwen 3.5、Kimi K2.5、GLM 5、MiniMax M2.5、GPT-OSS、Arcee Large、Nemotron 3、Olmo 3等众多模型竞争。尽管空间拥挤,但开放模型的潜力仍像暗物质一样巨大——我们知道它存在,但缺乏明确的配方和示例来解锁它。Agentic AI、OpenClaw等领域的发展将推动对开放模型的大量实验,以补充Claude和Codex等模型,而非取代它们。
对于开放模型而言,发布时的基准测试分数只是极其不完整的故事。一方面,这令人兴奋,因为新模型具有更高的方差和惊喜能力;但另一方面,也指出了在开放模型上构建业务和优秀AI体验比封闭替代方案更困难的结构性原因。当新的Claude Opus或GPT发布时,在代理工作流中使用几小时是很好的测试。但对于开放模型,这种测试是分类错误。在代理时代,开放模型摆脱了集成、工具和框架的争论,让我们更接近模型本身的能力。当然,没有工具我们无法测试搜索等能力,但能够精确衡量模型本身进步的速度,是对系统性不透明的AI领域的一种受欢迎的简化。
评估开放模型时,我会考虑以下因素:模型性能(及尺寸)、来源国(一些企业关心模型是否来自中国)、许可证(需要法律批准的使用会减缓中大型企业的采用)、发布时的工具支持(许多模型在vLLM、Transformers等流行的开源工具中实现不完善)、以及微调能力(模型是否易于针对特定用例进行修改)。核心问题是,有些因素(如性能、许可证、来源)在发布时立即可得,而其他因素(如工具支持)需要数天到数周才能稳定,微调能力甚至仍是开放的研究问题。
在早期开放模型时代(如Llama 2/3、Qwen v3.5之前),架构相对简单,模型往往开箱即用。部分归功于开发团队的辛勤工作,部分由于新模型确实更难使用。例如,Qwen 3.5或Nemotron 3等混合模型(门控delta网络或Mamba层)的工具支持在发布时非常粗糙。自我们发布类似架构的Olmo Hybrid以来,我一直在密切关注这一领域。Qwen 3.5在发布1.5个月后才开始在各种开源工具中良好运行。完全开放和分布式的生态系统需要很长时间来适应新模型。
最重要的是开放模型适应特定用例的难易程度。大型MoE开放权重模型可能被Cursor等实体使用,它们需要复杂能力;其他应用可以基于更小的模型构建,如基于GPT-OSS 20B的Context-1模型。关于“哪些模型可微调”的问题在很大程度上是工程师行业内的背景知识。应该有一个蓬勃的研究领域来支持开放生态系统。第一步是了解不同基座模型和后训练模型的特性;第二步是调整开放模型的预训练食谱,使其更灵活。
终于,我们来到Gemma 4——谷歌最新的开放模型。Gemma 3于2025年3月发布,已过去一年多,有些被低估。Gemma 4目前提供4种尺寸:约5B密集参数、8B密集、26B总参数(4B活跃)的MoE模型、以及31B密集。最令人兴奋的是,它们终于采用了标准的Apache 2.0开源许可证。这将大幅提升采用率。在过去一两年里,强大的开放权重LLM的更好许可证标准主要由中国开放模型实验室设定,现在美国公司也开始效仿。如果Llama许可证和Gemma服务条款只是行业在发布强大开放模型时紧张态势下的18个月暂时现象,我将非常高兴。
Gemma 4的基准分数非常扎实——小型模型在LMArena等通用领域表现惊人,31B模型可与最近的Qwen 3.5 27B相媲美。约30B尺寸范围至关重要:它既能被研究人员访问,也能被寻求部署实际用例的企业使用。7B模型是修补和研究的默认选择,而30B模型则是检验开放模型能否在特定工作流中释放巨大价值的默认选择——结合了智能、低价、易于下游训练等优点。
Gemma 4的成功将完全取决于易用性,以至于5-10%的基准分数波动根本不重要。它足够强大、足够小、拥有正确的许可证、且来自美国,许多公司会采用它。我对Gemma 4能更好地工作持谨慎乐观态度。美国制造的开放模型风潮正在转变。我们看到了GPT-OSS经历坎坷发布后大获成功。围绕Reflection、Arcee、Nemotron、Gemma、Olmo等模型的集体能量表明,对围绕开放模型构建新栈的需求巨大。整个经济体中都有资本用于AI栈,那些希望拥有更多所有权(包括模型)的人将推动这一进程。
自240天前启动ATOM项目以来,对话已进入下一阶段。2025年夏季是美国AI场景的危机时刻——它意识到不能等到构建AGI后再搞清楚开放模型。两个市场将捕获不同领域并平行发展。随着美国更多公司发布强大模型,我们需要改善生态系统,使这些模型易于使用、理解和构建价值。这是在这些我一直在更新的采用曲线中构建另一个拐点的艰苦工作,但这是必须完成的工作。加入我吧!