AI News HubLIVE
站內改寫3 分鐘閱讀

注意力機制之後是什麼?這家初創公司表示它已經知道了。

Subquadratic公司推出了稀疏注意力模型SubQ 1.1,能處理1200萬token的上下文,效率遠超傳統Transformer。儘管初期因缺乏基準測試受到質疑,但現已發佈模型卡和第三方驗證,並開始與設計合作伙伴合作。公司還計劃開發無注意力架構,追求計算、樣本和內存效率三方面的突破。

來源The New Stack AI作者: Frederic Lardinois

Subquadratic公司今年初成立時,便宣稱能夠構建一種稀疏注意力模型,處理高達1200萬token的上下文窗口,並顯著快於當前的大語言模型。然而,由於未廣泛發佈模型或公開基準測試,這一説法引發了大量質疑。直到今年6月,Subquadratic發佈了首個模型卡和SubQ 1.1小型模型的基準測試,並提供了來自數據公司Appen的第三方驗證,同時開始與首批設計合作伙伴合作,這些夥伴現已獲得模型訪問權限。

儘管如此,目前實際使用其模型的人仍然很少。為了瞭解公司情況、模型為何尚未廣泛可用以及未來計劃,我們採訪了Subquadratic聯合創始人兼CTO Alex Whedon。

Whedon明確表示,公司當前模型雖基於稀疏注意力,但這不是其全部使命。“我們也不是一家稀疏注意力公司,”他告訴The New Stack,“我們已經在非注意力架構上工作了相當長一段時間。我們相信,在下一代模型架構方面,我們將是第一個超越自己的人。”

模型卡顯示的內容 當前備受關注的是SubQ 1.1 Small模型,它基於Subquadratic稀疏注意力(SSA)機制。該公司聲稱,這種注意力機制隨上下文長度的增長近似線性,而非二次方。Whedon解釋,並非所有token關係都重要,而全注意力矩陣中,1000 token輸入就有近100萬個可能的雙token關係。

在長上下文檢索方面,SubQ 1.1 Small的表現最為突出。在海撈針測試中,從100萬token到1200萬token,它都接近完美,儘管其訓練主要集中在100萬token。在NVIDIA更難的RULER測試中,它達到了99.12%,該測試要求模型在128,000 token上下文中追蹤和聚合事實。在通用能力上,它略低於中端前沿模型,例如GPQA Diamond得分85.4,而Sonnet 4.6為87.5。在LiveCodeBench編碼基準上,它得分89.7,低於Opus 4.8和GPT-5.5,但略高於Sonnet 4.6。

然而,效率才是該模型的亮點。公司表示,在100萬token時,SubQ使用的計算量僅為密集註意力的64.5分之一,在單注意力層上運行速度比FlashAttention-2快56倍。在完整的1200萬token窗口下,注意力計算減少近1000倍。

Whedon指出,即使在完全密集註意力中,超過99%的token相對重要性極低,注意力分數低於0.1,因此大部分計算被浪費,甚至可能引入噪聲。他認為Transformer是一種暴力方法,而人類閲讀文本並非如此。SSA也與檢索增強生成不同,因為所有token都被模型看到,只是不冗餘比較。

在能力上,SubQ 1.1 Small大致與Sonnet 4.6相當,但優勢在於尺寸和成本。Whedon透露模型參數少於1000億,比OpenAI或Anthropic的任何模型都小。但下一個模型將不會如此。

更小、更便宜、面向企業 Subquadratic還強調其模型能力對企業尤其有吸引力。Whedon認為,許多企業問題從搜索大量數據開始,1200萬token的上下文窗口可以容納大量文檔。當前大多數模型在用户填滿百萬token窗口前就已崩潰,而SubQ近乎完美的檢索性能可能成為這些問題的答案。

模型的初始用户是設計合作伙伴,主要是企業,支出在八到九位數。有限個人訪問版本將在全面上市前推出。公司有意在發佈時先提出主張而非基準測試,因為主要是宣佈研究。

基於現有模型構建 但自5月以來,一個問題仍未消失:模型卡顯示Subquadratic“從一個現有的開放權重前沿模型開始,用SSA替換其密集註意力”,然後進行了約一萬億token的長上下文繼續預訓練。這證實了一些懷疑者的猜測:SubQ“幾乎肯定是Kimi或DeepSeek的稀疏注意力微調”。因此,新意在於SSA機制和長上下文訓練方案,而非從頭訓練的模型。公司未透露起始模型。

Whedon表示,長上下文檢索的最大槓桿是對極長序列的預訓練,而SSA的效率使其變得可行。

為何混合模型不夠 Whedon認為,許多改進二次方縮放的努力只走了一半。混合模型如NVIDIA基於Mamba的Nemotrons、Qwen的Gated DeltaNet層等替換了部分注意力層,但並未完全改變。他指出,如果80%的層不呈二次方縮放,最大收益僅為5倍,而他們能在100萬token時實現60倍提升,1200萬時近1000倍。

實際上,他感謝DeepSeek自己的稀疏注意力機制使解釋更容易。但Subquadratic運行了自己的基準測試,顯示在100萬token時,58%的預填充延遲來自選擇機制,該機制本身是二次方縮放的。

超越稀疏注意力 Whedon反駁“稀疏注意力公司”的標籤。Subquadratic正在研究“零注意力”架構,完全放棄注意力機制。他認為,注意力類似於RAG,存在表示離散性,限制了信息壓縮能力。如果採用更連續、抽象的信息表示方式,可以進一步壓縮,從而製作更小的模型或實現新的智能飛躍。他將其理念追溯到世界模型和Yann LeCun的工作。

Subquadratic還追求計算、樣本和內存效率,但僅公開談論了計算效率。

近期計劃 短期計劃更温和。Whedon表示,長期來看Subquadratic可能在原始質量上與OpenAI和Anthropic競爭,但短期內需保持戰略。下一個模型可能是中端規模,而非前沿級別,預計將超越同級別競爭對手。至於如何將模型推向市場,Whedon守口如瓶。不過,我們在舊金山與他見面,這暗示了團隊當前動向。