高效小型语言模型的Wiola架构
Wiola是一种全新的小型语言模型架构,从基本原理设计,与GPT、LLaMA、Mistral或Falcon等现有模型无结构关联。它引入了五种独立创新的组件:螺旋旋转位置编码(SRPE)、门控跨层注意力(GCLA)、自适应令牌合并(ATM)、双流前馈(DSFF)和WiolaRMSNorm归一化。模型提供四种规模(120M、360M、700M和1.5B参数),完全兼容HuggingFace Transformers生态系统。
Wiola是一种从零开始设计的小型语言模型(SLM)架构,完全独立于GPT、LLaMA、Mistral或Falcon等现有模型家族。该架构由五位作者在2026年7月1日提交至arXiv的论文中提出,其核心在于引入了五种创新组件,旨在提升小型语言模型的效率与性能。
第一种组件是螺旋旋转位置编码(SRPE),它摒弃了传统的位置编码方式,将令牌位置嵌入到三维螺旋流形上,巧妙地融合了绝对、相对和层次位置信号,使模型能够更准确地捕捉序列中的位置信息。第二种组件是门控跨层注意力(GCLA),允许每个解码器层通过软跨层注意力机制访问前两个层的压缩摘要,从而增强层间信息流动与一致性。第三种组件是自适应令牌合并(ATM),它在中间网络层动态合并语义冗余的相邻令牌,在不损失重要信息的前提下大幅降低注意力计算的复杂度。第四种组件是双流前馈(DSFF),它用两个并行流替代传统的单层MLP,并通过学习到的逐维门控进行融合,增加了模型的表达力。第五种组件是WiolaRMSNorm,一种改进的归一化方法,引入逐维学习偏移向量,有效防止深层网络中的表示崩溃问题。
研究者提供了完整的数学推导、架构框图、复杂度分析,并与GPT-2、LLaMA-2和Mistral进行了系统比较。Wiola以四种参数规模发布:120M、360M、700M和1.5B,所有规模均通过22项架构单元测试。该模型完全兼容HuggingFace Transformers生态系统,用户可直接加载使用。这一架构的提出为小型语言模型的发展提供了全新思路,可能影响模型选型、推理成本与产品能力。