AI News HubLIVE
站內改寫1 分鐘閱讀

高效小型語言模型的Wiola架構

Wiola是一種全新的小型語言模型架構,從基本原理設計,與GPT、LLaMA、Mistral或Falcon等現有模型無結構關聯。它引入了五種獨立創新的組件:螺旋旋轉位置編碼(SRPE)、門控跨層注意力(GCLA)、自適應令牌合併(ATM)、雙流前饋(DSFF)和WiolaRMSNorm歸一化。模型提供四種規模(120M、360M、700M和1.5B參數),完全兼容HuggingFace Transformers生態系統。

來源arXiv AI作者: Aryuemaan Kumar Chowdhury, Afreen Shaik, Yaparla Bhargavi, Brahma Kumar

Wiola是一種從零開始設計的小型語言模型(SLM)架構,完全獨立於GPT、LLaMA、Mistral或Falcon等現有模型家族。該架構由五位作者在2026年7月1日提交至arXiv的論文中提出,其核心在於引入了五種創新組件,旨在提升小型語言模型的效率與性能。

第一種組件是螺旋旋轉位置編碼(SRPE),它摒棄了傳統的位置編碼方式,將令牌位置嵌入到三維螺旋流形上,巧妙地融合了絕對、相對和層次位置信號,使模型能夠更準確地捕捉序列中的位置信息。第二種組件是門控跨層注意力(GCLA),允許每個解碼器層通過軟跨層注意力機制訪問前兩個層的壓縮摘要,從而增強層間信息流動與一致性。第三種組件是自適應令牌合併(ATM),它在中間網絡層動態合併語義冗餘的相鄰令牌,在不損失重要信息的前提下大幅降低注意力計算的複雜度。第四種組件是雙流前饋(DSFF),它用兩個並行流替代傳統的單層MLP,並通過學習到的逐維門控進行融合,增加了模型的表達力。第五種組件是WiolaRMSNorm,一種改進的歸一化方法,引入逐維學習偏移向量,有效防止深層網絡中的表示崩潰問題。

研究者提供了完整的數學推導、架構框圖、複雜度分析,並與GPT-2、LLaMA-2和Mistral進行了系統比較。Wiola以四種參數規模發佈:120M、360M、700M和1.5B,所有規模均通過22項架構單元測試。該模型完全兼容HuggingFace Transformers生態系統,用户可直接加載使用。這一架構的提出為小型語言模型的發展提供了全新思路,可能影響模型選型、推理成本與產品能力。