AI News HubLIVE
站内改写3 分钟阅读

注意力机制之后是什么?这家初创公司表示它已经知道了。

Subquadratic公司推出了稀疏注意力模型SubQ 1.1,能处理1200万token的上下文,效率远超传统Transformer。尽管初期因缺乏基准测试受到质疑,但现已发布模型卡和第三方验证,并开始与设计合作伙伴合作。公司还计划开发无注意力架构,追求计算、样本和内存效率三方面的突破。

来源The New Stack AI作者: Frederic Lardinois

Subquadratic公司今年初成立时,便宣称能够构建一种稀疏注意力模型,处理高达1200万token的上下文窗口,并显著快于当前的大语言模型。然而,由于未广泛发布模型或公开基准测试,这一说法引发了大量质疑。直到今年6月,Subquadratic发布了首个模型卡和SubQ 1.1小型模型的基准测试,并提供了来自数据公司Appen的第三方验证,同时开始与首批设计合作伙伴合作,这些伙伴现已获得模型访问权限。

尽管如此,目前实际使用其模型的人仍然很少。为了了解公司情况、模型为何尚未广泛可用以及未来计划,我们采访了Subquadratic联合创始人兼CTO Alex Whedon。

Whedon明确表示,公司当前模型虽基于稀疏注意力,但这不是其全部使命。“我们也不是一家稀疏注意力公司,”他告诉The New Stack,“我们已经在非注意力架构上工作了相当长一段时间。我们相信,在下一代模型架构方面,我们将是第一个超越自己的人。”

模型卡显示的内容 当前备受关注的是SubQ 1.1 Small模型,它基于Subquadratic稀疏注意力(SSA)机制。该公司声称,这种注意力机制随上下文长度的增长近似线性,而非二次方。Whedon解释,并非所有token关系都重要,而全注意力矩阵中,1000 token输入就有近100万个可能的双token关系。

在长上下文检索方面,SubQ 1.1 Small的表现最为突出。在海捞针测试中,从100万token到1200万token,它都接近完美,尽管其训练主要集中在100万token。在NVIDIA更难的RULER测试中,它达到了99.12%,该测试要求模型在128,000 token上下文中追踪和聚合事实。在通用能力上,它略低于中端前沿模型,例如GPQA Diamond得分85.4,而Sonnet 4.6为87.5。在LiveCodeBench编码基准上,它得分89.7,低于Opus 4.8和GPT-5.5,但略高于Sonnet 4.6。

然而,效率才是该模型的亮点。公司表示,在100万token时,SubQ使用的计算量仅为密集注意力的64.5分之一,在单注意力层上运行速度比FlashAttention-2快56倍。在完整的1200万token窗口下,注意力计算减少近1000倍。

Whedon指出,即使在完全密集注意力中,超过99%的token相对重要性极低,注意力分数低于0.1,因此大部分计算被浪费,甚至可能引入噪声。他认为Transformer是一种暴力方法,而人类阅读文本并非如此。SSA也与检索增强生成不同,因为所有token都被模型看到,只是不冗余比较。

在能力上,SubQ 1.1 Small大致与Sonnet 4.6相当,但优势在于尺寸和成本。Whedon透露模型参数少于1000亿,比OpenAI或Anthropic的任何模型都小。但下一个模型将不会如此。

更小、更便宜、面向企业 Subquadratic还强调其模型能力对企业尤其有吸引力。Whedon认为,许多企业问题从搜索大量数据开始,1200万token的上下文窗口可以容纳大量文档。当前大多数模型在用户填满百万token窗口前就已崩溃,而SubQ近乎完美的检索性能可能成为这些问题的答案。

模型的初始用户是设计合作伙伴,主要是企业,支出在八到九位数。有限个人访问版本将在全面上市前推出。公司有意在发布时先提出主张而非基准测试,因为主要是宣布研究。

基于现有模型构建 但自5月以来,一个问题仍未消失:模型卡显示Subquadratic“从一个现有的开放权重前沿模型开始,用SSA替换其密集注意力”,然后进行了约一万亿token的长上下文继续预训练。这证实了一些怀疑者的猜测:SubQ“几乎肯定是Kimi或DeepSeek的稀疏注意力微调”。因此,新意在于SSA机制和长上下文训练方案,而非从头训练的模型。公司未透露起始模型。

Whedon表示,长上下文检索的最大杠杆是对极长序列的预训练,而SSA的效率使其变得可行。

为何混合模型不够 Whedon认为,许多改进二次方缩放的努力只走了一半。混合模型如NVIDIA基于Mamba的Nemotrons、Qwen的Gated DeltaNet层等替换了部分注意力层,但并未完全改变。他指出,如果80%的层不呈二次方缩放,最大收益仅为5倍,而他们能在100万token时实现60倍提升,1200万时近1000倍。

实际上,他感谢DeepSeek自己的稀疏注意力机制使解释更容易。但Subquadratic运行了自己的基准测试,显示在100万token时,58%的预填充延迟来自选择机制,该机制本身是二次方缩放的。

超越稀疏注意力 Whedon反驳“稀疏注意力公司”的标签。Subquadratic正在研究“零注意力”架构,完全放弃注意力机制。他认为,注意力类似于RAG,存在表示离散性,限制了信息压缩能力。如果采用更连续、抽象的信息表示方式,可以进一步压缩,从而制作更小的模型或实现新的智能飞跃。他将其理念追溯到世界模型和Yann LeCun的工作。

Subquadratic还追求计算、样本和内存效率,但仅公开谈论了计算效率。

近期计划 短期计划更温和。Whedon表示,长期来看Subquadratic可能在原始质量上与OpenAI和Anthropic竞争,但短期内需保持战略。下一个模型可能是中端规模,而非前沿级别,预计将超越同级别竞争对手。至于如何将模型推向市场,Whedon守口如瓶。不过,我们在旧金山与他见面,这暗示了团队当前动向。