AI News HubLIVE
站内改写1 分で読了

大規模ゲート付きデルタネットワークにおける特徴学習の実現

本論文では、効率的な線形アーキテクチャであるゲート付きデルタネットワークに最大更新パラメータ化(μP)を拡張する方法を研究している。順伝播、ゲート機構、およびリカレント状態ダイナミクスを通じて座標サイズ推定を厳密に伝播させることにより、著者らはスケーリング則を導出した。AdamWおよびSGDの下で、提案された構成がモデル幅間で安定した学習率転移を可能にする一方、標準パラメータ化は失敗することを実験で確認した。

ソースarXiv Machine Learning著者: Yifeng Liu, Quanquan Gu

最近、カリフォルニア大学ロサンゼルス校のYifeng Liu氏とQuanquan Gu氏が、arXivに「Unlocking Feature Learning in Gated Delta Networks at Scale」という論文を発表しました。この研究は、効率的な線形アーキテクチャであるゲート付きデルタネットワーク(Gated Delta Networks)に、最大更新パラメータ化(Maximal Update Parametrization, μP)を拡張する方法を探求しています。大規模言語モデル(LLM)のトレーニングには膨大な計算リソースが必要であり、効率的なサブ二次アーキテクチャと原理的なハイパーパラメータ調整手法の動機となっています。μPは標準Transformerにおいてゼロショットのハイパーパラメータ転移を可能にしましたが、構造化された状態遷移を持つ線形モデルへの拡張は未解決でした。

本研究では、順伝播、ゲート機構、およびリカレント状態ダイナミクスを通じて座標サイズ推定を厳密に伝播させることにより、ゲート付きデルタネットワークのスケーリング則を導出しました。具体的には、ネットワーク内の各テンソルの座標の分散と更新の大きさを分析し、幅が増加しても特徴学習が持続し、勾配の発散や消失が起こらないようにしました。言語モデルの事前学習を用いた実験では、AdamWとSGDの両方の最適化器において、提案されたパラメータ化がモデル幅間で安定した学習率転移を実現する一方、標準パラメータ化では転移に失敗することが確認されました。これにより、理論解析の正当性と実用的有用性が検証されました。

この研究は、より効率的なアーキテクチャ設計のための理論的基盤を提供し、大規模言語モデルのトレーニングコスト削減に寄与することが期待されます。論文のコードとデータは公開されており、他の研究者による再現やさらなる探求が可能です。また、この研究はμPの適用範囲を拡大するだけでなく、線形リカレントモデルの理論研究に新たな方向性を示しています。