アテンションの次は何か?このスタートアップはすでに知っていると語る。
Subquadratic社は、スパースアテンションモデルSubQ 1.1を発表し、1200万トークンのコンテキストウィンドウを処理可能で、従来のTransformerより格段に効率的であると主張。当初はベンチマーク不足で懐疑的だったが、モデルカードの公開や第三者検証により信頼性を高め、企業パートナーとの協業を開始。将来的にはアテンション機構を完全に排除したアーキテクチャも目指している。
Subquadratic社は今年初めに設立され、スパースアテンションモデルが最大1200万トークンのコンテキストウィンドウを処理でき、現在の大規模言語モデルよりも大幅に高速であると主張しました。しかし、モデルを広く公開したりベンチマークを公開しなかったため、かなりの懐疑論が生じました。6月、Subquadraticは最初のモデルカードと小型モデルSubQ 1.1のベンチマークを公開し、データ会社Appenによる第三者検証を提供し、モデルにアクセスできる最初のデザインパートナーとの協業を開始しました。
それでも、実際にモデルを使用した人はほとんどいません。同社の状況、モデルがまだ広く利用できない理由、そして近い将来の計画について話すために、Subquadraticの共同創業者兼CTOであるAlex Whedonにインタビューしました。
Whedonは、同社の現在のモデルはスパースアテンションに基づいているが、それが全ての使命ではないと明確に述べました。「私たちはスパースアテンション企業でもありません」とWhedonはThe New Stackに語ります。「私たちはかなり前から非アテンションアーキテクチャにも取り組んできました。次のモデルアーキテクチャにおいて、私たちは自分自身を追い越す最初の存在になると信じています。」
モデルカードが示すもの 現在注目されているのは、Subquadratic Sparse Attention(SSA)メカニズムに基づくSubQ 1.1 Smallモデルです。同社は、このアテンションメカニズムがコンテキスト長に対して二次関数的ではなく、ほぼ線形にスケーリングすると主張しています。Whedonは、すべてのトークン関係が重要であるわけではなく、完全なアテンションマトリックスでは1000トークンの入力に対してほぼ100万の可能な2トークン関係が存在すると説明します。
長文脈検索において、SubQ 1.1 Smallは最も優れた結果を示しています。針山テストでは、100万トークンから1200万トークンまでほぼ完全なスコアを達成し、主に100万トークンでトレーニングされたにもかかわらずです。NVIDIAのより難しいRULERテストでは99.12%を記録し、このテストはモデルが12万8000トークンのコンテキストで事実を追跡し集約することを要求します。一般的な能力では、GPQA Diamondで85.4(Sonnet 4.6は87.5)、LiveCodeBenchで89.7(Opus 4.8やGPT-5.5より低いがSonnet 4.6よりわずかに高い)と、中位のフロンティアモデルをわずかに下回ります。
しかし、効率性こそがこのモデルの輝く点です。同社によると、100万トークン時、SubQは密なアテンションと比較して64.5倍少ない計算量で済み、単一アテンション層でFlashAttention-2より56倍高速です。完全な1200万トークンウィンドウでは、アテンション計算を約1000倍削減します。
Whedonは、完全な密なアテンションでも99%以上のトークンの相対的重要性が非常に低く、アテンションスコアが0.1未満であるため、ほとんどの計算が無駄になっており、ノイズを導入している可能性さえあると指摘します。彼はTransformerをテキストモデリングへの力ずくのアプローチと呼び、人間の読み方とは異なると述べます。SSAは検索拡張生成とも異なり、すべてのトークンがモデルによって見られますが、冗長に比較されることはありません。
能力面では、SubQ 1.1 SmallはおおよそSonnet 4.6と同等ですが、サイズとコストで優位性があります。Whedonはモデルパラメータが1000億未満であり、OpenAIやAnthropicのどのモデルよりも小さいと述べています。ただし、次のモデルはそうではありません。
より小型、低コスト、エンタープライズ向け Subquadraticは、そのモデルの能力が特にエンタープライズにとって魅力的であると強調しています。Whedonは、多くのエンタープライズ問題が大量のデータ検索から始まり、1200万トークンのコンテキストウィンドウで多くのドキュメントを詰め込める点を挙げます。現在のほとんどのモデルはユーザーが100万トークンウィンドウを満たす前に崩壊しますが、SubQのほぼ完璧な検索スコアはこれらの問題に対する良い答えとなる可能性があります。
モデルの最初のユーザーはデザインパートナーであり、主に8桁から9桁の支出のあるエンタープライズです。限定的な個人アクセスリリースは、一般提供の前に行われます。同社は、主に研究を発表するという意図から、ベンチマークではなく主張を先行させました。
既存モデルに基づいて構築 しかし、5月以来の疑問は消えていません。モデルカードは、Subquadraticが「既存のオープンウェイトフロンティアモデルから始めて、その密なアテンションをSSAで置き換え」、その後約1兆トークンの長文脈継続事前学習を行ったと述べています。これは、リリース時にOpenAI研究者がSubQは「ほとんど確実にKimiまたはDeepSeekのスパースアテンションファインチューンである」と書いたことを裏付けています。ここでの新しさはSSAメカニズムと長文脈トレーニングレシピであり、ゼロからトレーニングされたモデルではありません。同社はどのオープンウェイトモデルから始めたか明らかにしていません。
Whedonによると、長文脈検索の最大のレバーは非常に長いシーケンスでの事前学習であり、SSAの効率性によってそれが安価に日常的に実行可能になりました。
なぜハイブリッドでは不十分か Whedonは、二次スケーリングを改善する試みの多くが中途半端だと考えています。NVIDIAのMambaベースのNemotrons、QwenのGated DeltaNet層、さまざまな線形保持設計などのハイブリッドモデルは、一部のアテンション層を交換しますが、完全には変更しません。「層の80%が二次スケーリングでなければ、最大の見返りは無限にスケールしても約5倍です。我々は100万トークンで60倍、1200万トークンでほぼ1000倍の向上を見ています。それはスカラー的な勝利ではなく、実際にスケーリング則を変えた場合にのみ得られる種類の見返りです。」
彼は実際、DeepSeek自身のスパースアテンションメカニズムが同社の説明を容易にしたと認めています。ただし、Subquadraticは独自のベンチマークを実行し、100万トークン時、プリフィルレイテンシの58%が選択メカニズムに起因し、その選択メカニズム自体が二次スケーリングするコンポーネントであることを示しました。
スパースアテンションを超えて Whedonは「スパースアテンション企業」というレッテルを否定します。Subquadraticは、アテンションメカニズムを完全に排除した「ゼロアテンション」アーキテクチャに取り組んでいます。彼は、アテンションはRAGと似ており、表現の離散性があり、情報圧縮能力を制限すると考えています。より連続的で抽象的な情報表現方法があれば、さらに圧縮でき、より小型のモデルを作成したり、再びスケールアップして知能の新たな飛躍を生み出すことができます。
彼はこのアイデアをワールドモデルとYann LeCunの研究に遡ります。Subquadraticはまた、計算効率、サンプル効率、メモリ効率の3つを追求していますが、公には計算効率のみを語っています。
近期的計画 短期的な計画はより控えめです。Whedonは、長期的にはSubquadraticが生の品質でOpenAIやAnthropicと競合できる可能性があるが、短期的には戦略的でなければならないと述べています。次のモデルはおそらく中位規模(SubQ 1.2 Mediumなど)であり、そのティアでほとんどの競合を上回ると期待されています。
ただし、チームがどのようにモデルを市場に投入するかは未定です。Whedonは今後の計画について口を閉ざしましたが、私たちがサンフランシスコで彼に会ったことは、チームが現在何をしているかのヒントを与えています。