2026-07-03 01:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-03 01:05 UTC+8

注意力機制之後是什麼？這家初創公司表示它已經知道了。

Subquadratic公司推出了稀疏注意力模型SubQ 1.1，能處理1200萬token的上下文，效率遠超傳統Transformer。儘管初期因缺乏基準測試受到質疑，但現已發佈模型卡和第三方驗證，並開始與設計合作伙伴合作。公司還計劃開發無注意力架構，追求計算、樣本和內存效率三方面的突破。

來源The New Stack AI作者: Frederic Lardinois

Subquadratic公司今年初成立時，便宣稱能夠構建一種稀疏注意力模型，處理高達1200萬token的上下文窗口，並顯著快於當前的大語言模型。然而，由於未廣泛發佈模型或公開基準測試，這一説法引發了大量質疑。直到今年6月，Subquadratic發佈了首個模型卡和SubQ 1.1小型模型的基準測試，並提供了來自數據公司Appen的第三方驗證，同時開始與首批設計合作伙伴合作，這些夥伴現已獲得模型訪問權限。

儘管如此，目前實際使用其模型的人仍然很少。為了瞭解公司情況、模型為何尚未廣泛可用以及未來計劃，我們採訪了Subquadratic聯合創始人兼CTO Alex Whedon。

Whedon明確表示，公司當前模型雖基於稀疏注意力，但這不是其全部使命。“我們也不是一家稀疏注意力公司，”他告訴The New Stack，“我們已經在非注意力架構上工作了相當長一段時間。我們相信，在下一代模型架構方面，我們將是第一個超越自己的人。”

模型卡顯示的內容當前備受關注的是SubQ 1.1 Small模型，它基於Subquadratic稀疏注意力（SSA）機制。該公司聲稱，這種注意力機制隨上下文長度的增長近似線性，而非二次方。Whedon解釋，並非所有token關係都重要，而全注意力矩陣中，1000 token輸入就有近100萬個可能的雙token關係。

在長上下文檢索方面，SubQ 1.1 Small的表現最為突出。在海撈針測試中，從100萬token到1200萬token，它都接近完美，儘管其訓練主要集中在100萬token。在NVIDIA更難的RULER測試中，它達到了99.12%，該測試要求模型在128,000 token上下文中追蹤和聚合事實。在通用能力上，它略低於中端前沿模型，例如GPQA Diamond得分85.4，而Sonnet 4.6為87.5。在LiveCodeBench編碼基準上，它得分89.7，低於Opus 4.8和GPT-5.5，但略高於Sonnet 4.6。

然而，效率才是該模型的亮點。公司表示，在100萬token時，SubQ使用的計算量僅為密集註意力的64.5分之一，在單注意力層上運行速度比FlashAttention-2快56倍。在完整的1200萬token窗口下，注意力計算減少近1000倍。

Whedon指出，即使在完全密集註意力中，超過99%的token相對重要性極低，注意力分數低於0.1，因此大部分計算被浪費，甚至可能引入噪聲。他認為Transformer是一種暴力方法，而人類閲讀文本並非如此。SSA也與檢索增強生成不同，因為所有token都被模型看到，只是不冗餘比較。

在能力上，SubQ 1.1 Small大致與Sonnet 4.6相當，但優勢在於尺寸和成本。Whedon透露模型參數少於1000億，比OpenAI或Anthropic的任何模型都小。但下一個模型將不會如此。

更小、更便宜、面向企業 Subquadratic還強調其模型能力對企業尤其有吸引力。Whedon認為，許多企業問題從搜索大量數據開始，1200萬token的上下文窗口可以容納大量文檔。當前大多數模型在用户填滿百萬token窗口前就已崩潰，而SubQ近乎完美的檢索性能可能成為這些問題的答案。

模型的初始用户是設計合作伙伴，主要是企業，支出在八到九位數。有限個人訪問版本將在全面上市前推出。公司有意在發佈時先提出主張而非基準測試，因為主要是宣佈研究。

基於現有模型構建但自5月以來，一個問題仍未消失：模型卡顯示Subquadratic“從一個現有的開放權重前沿模型開始，用SSA替換其密集註意力”，然後進行了約一萬億token的長上下文繼續預訓練。這證實了一些懷疑者的猜測：SubQ“幾乎肯定是Kimi或DeepSeek的稀疏注意力微調”。因此，新意在於SSA機制和長上下文訓練方案，而非從頭訓練的模型。公司未透露起始模型。

Whedon表示，長上下文檢索的最大槓桿是對極長序列的預訓練，而SSA的效率使其變得可行。

為何混合模型不夠 Whedon認為，許多改進二次方縮放的努力只走了一半。混合模型如NVIDIA基於Mamba的Nemotrons、Qwen的Gated DeltaNet層等替換了部分注意力層，但並未完全改變。他指出，如果80%的層不呈二次方縮放，最大收益僅為5倍，而他們能在100萬token時實現60倍提升，1200萬時近1000倍。

實際上，他感謝DeepSeek自己的稀疏注意力機制使解釋更容易。但Subquadratic運行了自己的基準測試，顯示在100萬token時，58%的預填充延遲來自選擇機制，該機制本身是二次方縮放的。

超越稀疏注意力 Whedon反駁“稀疏注意力公司”的標籤。Subquadratic正在研究“零注意力”架構，完全放棄注意力機制。他認為，注意力類似於RAG，存在表示離散性，限制了信息壓縮能力。如果採用更連續、抽象的信息表示方式，可以進一步壓縮，從而製作更小的模型或實現新的智能飛躍。他將其理念追溯到世界模型和Yann LeCun的工作。

Subquadratic還追求計算、樣本和內存效率，但僅公開談論了計算效率。

近期計劃短期計劃更温和。Whedon表示，長期來看Subquadratic可能在原始質量上與OpenAI和Anthropic競爭，但短期內需保持戰略。下一個模型可能是中端規模，而非前沿級別，預計將超越同級別競爭對手。至於如何將模型推向市場，Whedon守口如瓶。不過，我們在舊金山與他見面，這暗示了團隊當前動向。