2026-07-03 01:00 UTC+8站内改写3 分钟阅读更新: 2026-07-03 01:05 UTC+8

注意力机制之后是什么？这家初创公司表示它已经知道了。

Subquadratic公司推出了稀疏注意力模型SubQ 1.1，能处理1200万token的上下文，效率远超传统Transformer。尽管初期因缺乏基准测试受到质疑，但现已发布模型卡和第三方验证，并开始与设计合作伙伴合作。公司还计划开发无注意力架构，追求计算、样本和内存效率三方面的突破。

来源The New Stack AI作者: Frederic Lardinois

Subquadratic公司今年初成立时，便宣称能够构建一种稀疏注意力模型，处理高达1200万token的上下文窗口，并显著快于当前的大语言模型。然而，由于未广泛发布模型或公开基准测试，这一说法引发了大量质疑。直到今年6月，Subquadratic发布了首个模型卡和SubQ 1.1小型模型的基准测试，并提供了来自数据公司Appen的第三方验证，同时开始与首批设计合作伙伴合作，这些伙伴现已获得模型访问权限。

尽管如此，目前实际使用其模型的人仍然很少。为了了解公司情况、模型为何尚未广泛可用以及未来计划，我们采访了Subquadratic联合创始人兼CTO Alex Whedon。

Whedon明确表示，公司当前模型虽基于稀疏注意力，但这不是其全部使命。“我们也不是一家稀疏注意力公司，”他告诉The New Stack，“我们已经在非注意力架构上工作了相当长一段时间。我们相信，在下一代模型架构方面，我们将是第一个超越自己的人。”

模型卡显示的内容当前备受关注的是SubQ 1.1 Small模型，它基于Subquadratic稀疏注意力（SSA）机制。该公司声称，这种注意力机制随上下文长度的增长近似线性，而非二次方。Whedon解释，并非所有token关系都重要，而全注意力矩阵中，1000 token输入就有近100万个可能的双token关系。

在长上下文检索方面，SubQ 1.1 Small的表现最为突出。在海捞针测试中，从100万token到1200万token，它都接近完美，尽管其训练主要集中在100万token。在NVIDIA更难的RULER测试中，它达到了99.12%，该测试要求模型在128,000 token上下文中追踪和聚合事实。在通用能力上，它略低于中端前沿模型，例如GPQA Diamond得分85.4，而Sonnet 4.6为87.5。在LiveCodeBench编码基准上，它得分89.7，低于Opus 4.8和GPT-5.5，但略高于Sonnet 4.6。

然而，效率才是该模型的亮点。公司表示，在100万token时，SubQ使用的计算量仅为密集注意力的64.5分之一，在单注意力层上运行速度比FlashAttention-2快56倍。在完整的1200万token窗口下，注意力计算减少近1000倍。

Whedon指出，即使在完全密集注意力中，超过99%的token相对重要性极低，注意力分数低于0.1，因此大部分计算被浪费，甚至可能引入噪声。他认为Transformer是一种暴力方法，而人类阅读文本并非如此。SSA也与检索增强生成不同，因为所有token都被模型看到，只是不冗余比较。

在能力上，SubQ 1.1 Small大致与Sonnet 4.6相当，但优势在于尺寸和成本。Whedon透露模型参数少于1000亿，比OpenAI或Anthropic的任何模型都小。但下一个模型将不会如此。

更小、更便宜、面向企业 Subquadratic还强调其模型能力对企业尤其有吸引力。Whedon认为，许多企业问题从搜索大量数据开始，1200万token的上下文窗口可以容纳大量文档。当前大多数模型在用户填满百万token窗口前就已崩溃，而SubQ近乎完美的检索性能可能成为这些问题的答案。

模型的初始用户是设计合作伙伴，主要是企业，支出在八到九位数。有限个人访问版本将在全面上市前推出。公司有意在发布时先提出主张而非基准测试，因为主要是宣布研究。

基于现有模型构建但自5月以来，一个问题仍未消失：模型卡显示Subquadratic“从一个现有的开放权重前沿模型开始，用SSA替换其密集注意力”，然后进行了约一万亿token的长上下文继续预训练。这证实了一些怀疑者的猜测：SubQ“几乎肯定是Kimi或DeepSeek的稀疏注意力微调”。因此，新意在于SSA机制和长上下文训练方案，而非从头训练的模型。公司未透露起始模型。

Whedon表示，长上下文检索的最大杠杆是对极长序列的预训练，而SSA的效率使其变得可行。

为何混合模型不够 Whedon认为，许多改进二次方缩放的努力只走了一半。混合模型如NVIDIA基于Mamba的Nemotrons、Qwen的Gated DeltaNet层等替换了部分注意力层，但并未完全改变。他指出，如果80%的层不呈二次方缩放，最大收益仅为5倍，而他们能在100万token时实现60倍提升，1200万时近1000倍。

实际上，他感谢DeepSeek自己的稀疏注意力机制使解释更容易。但Subquadratic运行了自己的基准测试，显示在100万token时，58%的预填充延迟来自选择机制，该机制本身是二次方缩放的。

超越稀疏注意力 Whedon反驳“稀疏注意力公司”的标签。Subquadratic正在研究“零注意力”架构，完全放弃注意力机制。他认为，注意力类似于RAG，存在表示离散性，限制了信息压缩能力。如果采用更连续、抽象的信息表示方式，可以进一步压缩，从而制作更小的模型或实现新的智能飞跃。他将其理念追溯到世界模型和Yann LeCun的工作。

Subquadratic还追求计算、样本和内存效率，但仅公开谈论了计算效率。

近期计划短期计划更温和。Whedon表示，长期来看Subquadratic可能在原始质量上与OpenAI和Anthropic竞争，但短期内需保持战略。下一个模型可能是中端规模，而非前沿级别，预计将超越同级别竞争对手。至于如何将模型推向市场，Whedon守口如瓶。不过，我们在旧金山与他见面，这暗示了团队当前动向。