2026-06-22 20:38 UTC+8站内改写2 分钟阅读更新: 2026-06-22 21:04 UTC+8

预测：2026年12月3日将发布一款前沿开源大语言模型

根据单一基准测试，开源与闭源大语言模型之间的差距正在缩小，预计到2026年12月可能消失。然而，对18项基准测试的分析显示，平均差距稳定在约5个月，编码基准测试的进步是主要驱动力。本文强调了衡量大语言模型质量的难度。

来源Hacker News AI作者: hasheddan

近日，一张关于开源与闭源大语言模型（LLM）性能差距的趋势图在社交媒体上引发热议。该图基于Artificial Analysis Intelligence Index，该指数试图综合评估模型总体能力，并通常与用户对模型的主观感受高度相关。据图显示，自2024年夏季起，开源模型与闭源前沿模型在该指数上的差距开始稳步缩小。若按当前趋势线性外推，这一差距预计于2026年12月3日归零——也就是说，开源模型届时将达到与闭源前沿相同的水平。这一预测甚至引发了一些夸张的感慨，例如“是时候变现养老金、逃往孤岛享受文明最后的安宁了”。

然而，这远非故事的全貌。Artificial Analysis平台慷慨地提供了18项不同基准测试的数据，覆盖编码、数学、推理、代理任务等多个维度。当我们将同样的时间滞后分析应用于全部18项基准时，情况发生了戏剧性变化。每项基准都独立绘制了开源模型追赶闭源模型的滞后月数曲线，然后每月汇总所有基准的滞后数据形成箱线图。结果令人惊讶：所有基准的平均滞后时间在整个时间段内几乎完全平坦，始终保持在约5个月左右。换言之，从多维度综合来看，开源模型的追赶并未取得实质性进展。

进一步分析发现，滞后时间的整体改善几乎全部来自编码基准测试。编码指数从最初落后15个月迅速缩小到仅落后1-2个月。然而，其他大多数基准测试的滞后时间反而在缓慢增加。例如AIME、MMLU-Pro、GPQA等基准的差距并未缩小，甚至有所扩大。这说明LLM在编码能力上的突破性进展并未普遍迁移到其他领域。

这一案例凸显了衡量LLM质量的复杂性。如果我们仅凭单一指标（如智能指数），会得出开源模型即将超越闭源的乐观结论；但若考察更全面的基准集，开源模型仍稳定落后约5个月，且差距未见缩小趋势。因此，对于“开源奇点”何时到来的预测，本质上取决于我们选择何种度量标准。文章最后强调，在评估大语言模型能力时，必须警惕单一基准带来的误导，多维度、多指标的评估才是理解真实差距的关键。