AI News HubLIVE
サイト内リライト1 分で読了

効率的な小型言語モデルのためのWiolaアーキテクチャ

Wiolaは、GPT、LLaMA、Mistral、Falconなどの既存モデルファミリーとは無関係に、第一原理から構築された完全にオリジナルの小型言語モデル(SLM)アーキテクチャです。螺旋回転位置符号化(SRPE)、ゲート付き層間注意(GCLA)、適応型トークン統合(ATM)、二重ストリームフィードフォワード(DSFF)、WiolaRMSNormの5つの新しいコンポーネントを導入しています。4つのサイズ(120M、360M、700M、1.5Bパラメータ)でリリースされ、HuggingFace Transformersと完全互換です。

ソースarXiv AI著者: Aryuemaan Kumar Chowdhury, Afreen Shaik, Yaparla Bhargavi, Brahma Kumar

Wiolaは、GPT、LLaMA、Mistral、Falconなどの既存のモデルファミリーとは構造的な系統を一切共有せず、第一原理から設計された小型言語モデル(SLM)アーキテクチャです。このアーキテクチャは、2026年7月1日にarXivに提出された論文で発表され、5つの独立した革新的コンポーネントを導入しています。

第一に、螺旋回転位置符号化(SRPE)は、トークンの位置を3次元の螺旋多様体に埋め込み、絶対位置、相対位置、階層的位置の信号を組み合わせます。第二に、ゲート付き層間注意(GCLA)により、各デコーダ層は前の2層の圧縮要約にソフトなクロスアテンションでアクセスでき、層間の一貫性を高めます。第三に、適応型トークン統合(ATM)は、中間ネットワーク層で意味的に冗長な隣接トークンを動的に統合し、情報損失なしに注意機構の複雑さを低減します。第四に、二重ストリームフィードフォワード(DSFF)は、従来のMLPを2つの並列ストリームに置き換え、学習された次元ごとのゲートで融合します。第五に、WiolaRMSNormは、次元ごとに学習されたオフセットベクトルを導入し、表現の崩壊を防ぎます。

研究者らは、完全な数学的導出、アーキテクチャブロック図、複雑性解析、およびGPT-2、LLaMA-2、Mistralとの体系的な比較を提供しています。Wiolaは4つのサイズ(120M、360M、700M、1.5Bパラメータ)でリリースされ、HuggingFace Transformersエコシステムと完全互換であり、22のアーキテクチャユニットテストすべてに合格しています。このアーキテクチャは、小型言語モデルの効率性と性能に新たな可能性をもたらし、モデル選定や推論コストに影響を与えることが期待されます。