预测:2026年12月3日将发布一款前沿开源大语言模型
根据单一基准测试,开源与闭源大语言模型之间的差距正在缩小,预计到2026年12月可能消失。然而,对18项基准测试的分析显示,平均差距稳定在约5个月,编码基准测试的进步是主要驱动力。本文强调了衡量大语言模型质量的难度。
近日,一张关于开源与闭源大语言模型(LLM)性能差距的趋势图在社交媒体上引发热议。该图基于Artificial Analysis Intelligence Index,该指数试图综合评估模型总体能力,并通常与用户对模型的主观感受高度相关。据图显示,自2024年夏季起,开源模型与闭源前沿模型在该指数上的差距开始稳步缩小。若按当前趋势线性外推,这一差距预计于2026年12月3日归零——也就是说,开源模型届时将达到与闭源前沿相同的水平。这一预测甚至引发了一些夸张的感慨,例如“是时候变现养老金、逃往孤岛享受文明最后的安宁了”。
然而,这远非故事的全貌。Artificial Analysis平台慷慨地提供了18项不同基准测试的数据,覆盖编码、数学、推理、代理任务等多个维度。当我们将同样的时间滞后分析应用于全部18项基准时,情况发生了戏剧性变化。每项基准都独立绘制了开源模型追赶闭源模型的滞后月数曲线,然后每月汇总所有基准的滞后数据形成箱线图。结果令人惊讶:所有基准的平均滞后时间在整个时间段内几乎完全平坦,始终保持在约5个月左右。换言之,从多维度综合来看,开源模型的追赶并未取得实质性进展。
进一步分析发现,滞后时间的整体改善几乎全部来自编码基准测试。编码指数从最初落后15个月迅速缩小到仅落后1-2个月。然而,其他大多数基准测试的滞后时间反而在缓慢增加。例如AIME、MMLU-Pro、GPQA等基准的差距并未缩小,甚至有所扩大。这说明LLM在编码能力上的突破性进展并未普遍迁移到其他领域。
这一案例凸显了衡量LLM质量的复杂性。如果我们仅凭单一指标(如智能指数),会得出开源模型即将超越闭源的乐观结论;但若考察更全面的基准集,开源模型仍稳定落后约5个月,且差距未见缩小趋势。因此,对于“开源奇点”何时到来的预测,本质上取决于我们选择何种度量标准。文章最后强调,在评估大语言模型能力时,必须警惕单一基准带来的误导,多维度、多指标的评估才是理解真实差距的关键。