AI News HubLIVE
站内改写1 分で読了

ゲート付き連想検索を用いた汎用三重潜在圧縮

本論文では、実行中のトークン状態と圧縮ペアメモリ経路を維持し、ベンチマーク固有の解析なしで高次トークン相互作用を捕捉する汎用三重潜在系列モデルを研究する。三重潜在ファミリーは、バイトレベルのWikiText-2およびトークナイザベースのMiniMind言語モデルベンチマークにおいて小規模Transformerベースラインを改善する一方、想起重視のゲート付きキーバリュー検索拡張は連想想起を向上させるが、シードに敏感で現在の参照実装では大幅に低速である。

ソースarXiv Computational Linguistics著者: Liu Xiao

2026年4月17日にarXivに提出された論文(ID: 2606.05175)は、「ゲート付き連想検索を用いた汎用三重潜在圧縮」と題し、高次トークン相互作用を効率的に捕捉する新しい系列モデルを提案しています。著者はXiao Liuで、計算と言語(cs.CL)分野に分類されます。

提案手法である汎用三重潜在系列モデルは、従来のTransformerアーキテクチャとは異なり、実行中のトークン状態と圧縮されたペアメモリ経路という2つの要素を導入します。実行トークン状態は現在の系列コンテキストをリアルタイムで追跡し、圧縮ペアメモリは過去の相互作用を効率的に符号化することで、ベンチマーク固有の前処理を必要とせずに高次の依存関係をモデル化します。これにより、トークナイザやタスクの差異に応じて調整を繰り返す必要性が低減されます。

実験では、バイトレベルのWikiText-2言語モデリングタスクとトークナイザベースのMiniMindベンチマークにおいて、小規模Transformerをベースラインとして比較しました。結果、三重潜在モデルはパープレキシティなどの指標で一貫した改善を示し、汎用的な系列モデリングフレームワークとしての可能性が確認されました。

さらに、ゲート付きキーバリュー検索拡張が検討されています。この拡張は、ゲート機構を用いて重要な情報に焦点を当てることで連想想起性能を向上させます。しかし、同時にシードランダム性への敏感さと、現在の参照実装における計算速度の大幅な低下が課題として挙げられています。このため、実用化に向けては最適化が必要です。

本研究は、特定のベンチマークに依存せず長距離依存関係を捉える系列モデルの新たな方向性を示しており、特に大規模モデルへの応用や高速化が今後の発展として期待されます。