2026-07-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 15:54 UTC+8

高效小型语言模型的Wiola架构

Wiola是一种全新的小型语言模型架构，从基本原理设计，与GPT、LLaMA、Mistral或Falcon等现有模型无结构关联。它引入了五种独立创新的组件：螺旋旋转位置编码（SRPE）、门控跨层注意力（GCLA）、自适应令牌合并（ATM）、双流前馈（DSFF）和WiolaRMSNorm归一化。模型提供四种规模（120M、360M、700M和1.5B参数），完全兼容HuggingFace Transformers生态系统。

来源arXiv AI作者: Aryuemaan Kumar Chowdhury, Afreen Shaik, Yaparla Bhargavi, Brahma Kumar

Wiola是一种从零开始设计的小型语言模型（SLM）架构，完全独立于GPT、LLaMA、Mistral或Falcon等现有模型家族。该架构由五位作者在2026年7月1日提交至arXiv的论文中提出，其核心在于引入了五种创新组件，旨在提升小型语言模型的效率与性能。

第一种组件是螺旋旋转位置编码（SRPE），它摒弃了传统的位置编码方式，将令牌位置嵌入到三维螺旋流形上，巧妙地融合了绝对、相对和层次位置信号，使模型能够更准确地捕捉序列中的位置信息。第二种组件是门控跨层注意力（GCLA），允许每个解码器层通过软跨层注意力机制访问前两个层的压缩摘要，从而增强层间信息流动与一致性。第三种组件是自适应令牌合并（ATM），它在中间网络层动态合并语义冗余的相邻令牌，在不损失重要信息的前提下大幅降低注意力计算的复杂度。第四种组件是双流前馈（DSFF），它用两个并行流替代传统的单层MLP，并通过学习到的逐维门控进行融合，增加了模型的表达力。第五种组件是WiolaRMSNorm，一种改进的归一化方法，引入逐维学习偏移向量，有效防止深层网络中的表示崩溃问题。

研究者提供了完整的数学推导、架构框图、复杂度分析，并与GPT-2、LLaMA-2和Mistral进行了系统比较。Wiola以四种参数规模发布：120M、360M、700M和1.5B，所有规模均通过22项架构单元测试。该模型完全兼容HuggingFace Transformers生态系统，用户可直接加载使用。这一架构的提出为小型语言模型的发展提供了全新思路，可能影响模型选型、推理成本与产品能力。