2026-07-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 15:54 UTC+8

高效小型語言模型的Wiola架構

Wiola是一種全新的小型語言模型架構，從基本原理設計，與GPT、LLaMA、Mistral或Falcon等現有模型無結構關聯。它引入了五種獨立創新的組件：螺旋旋轉位置編碼（SRPE）、門控跨層注意力（GCLA）、自適應令牌合併（ATM）、雙流前饋（DSFF）和WiolaRMSNorm歸一化。模型提供四種規模（120M、360M、700M和1.5B參數），完全兼容HuggingFace Transformers生態系統。

來源arXiv AI作者: Aryuemaan Kumar Chowdhury, Afreen Shaik, Yaparla Bhargavi, Brahma Kumar

Wiola是一種從零開始設計的小型語言模型（SLM）架構，完全獨立於GPT、LLaMA、Mistral或Falcon等現有模型家族。該架構由五位作者在2026年7月1日提交至arXiv的論文中提出，其核心在於引入了五種創新組件，旨在提升小型語言模型的效率與性能。

第一種組件是螺旋旋轉位置編碼（SRPE），它摒棄了傳統的位置編碼方式，將令牌位置嵌入到三維螺旋流形上，巧妙地融合了絕對、相對和層次位置信號，使模型能夠更準確地捕捉序列中的位置信息。第二種組件是門控跨層注意力（GCLA），允許每個解碼器層通過軟跨層注意力機制訪問前兩個層的壓縮摘要，從而增強層間信息流動與一致性。第三種組件是自適應令牌合併（ATM），它在中間網絡層動態合併語義冗餘的相鄰令牌，在不損失重要信息的前提下大幅降低注意力計算的複雜度。第四種組件是雙流前饋（DSFF），它用兩個並行流替代傳統的單層MLP，並通過學習到的逐維門控進行融合，增加了模型的表達力。第五種組件是WiolaRMSNorm，一種改進的歸一化方法，引入逐維學習偏移向量，有效防止深層網絡中的表示崩潰問題。

研究者提供了完整的數學推導、架構框圖、複雜度分析，並與GPT-2、LLaMA-2和Mistral進行了系統比較。Wiola以四種參數規模發佈：120M、360M、700M和1.5B，所有規模均通過22項架構單元測試。該模型完全兼容HuggingFace Transformers生態系統，用户可直接加載使用。這一架構的提出為小型語言模型的發展提供了全新思路，可能影響模型選型、推理成本與產品能力。