AI News HubLIVE
站內改寫2 分鐘閱讀

混合模型在哪些token上預測得更好?

Ai2團隊比較了7B參數規模的Transformer模型Olmo 3和混合模型Olmo Hybrid,發現混合模型在內容詞(名詞、動詞、形容詞)和需要上下文推理的token上表現更優,但在重複token和閉合括號上優勢消失。研究表明,基於token的損失過濾可以揭示架構間的細微差異。

Ai2團隊近期在一項研究中,將自家最強的7B參數Transformer模型Olmo 3與混合模型Olmo Hybrid進行了細緻對比,旨在揭示混合模型在token級別上的預測優勢。混合模型作為一種新興的語言模型架構,已在標準基準測試中展現出與Transformer相當甚至更優的性能,但具體的優勢模式尚不明確。

研究團隊通過對比兩個模型——它們在數據、分詞器和訓練方案上高度一致,唯架構不同——在預測各種類型token時的損失差異,來探究架構本身帶來的影響。token作為語言模型輸入的基本信息單元,其預測難度因類型而異。

實驗結果顯示,混合模型在多數token上表現更優,但優勢並不均勻。具體而言,Olmo Hybrid在攜帶意義的token(如名詞、動詞、形容詞)上優勢明顯,損失差距約為0.04;而在語法功能詞(如“the”、“of”、“is”)上,優勢縮小至0.02左右。混合模型尤其擅長預測需要跟蹤上下文狀態的token,例如代詞所指代的對象。然而,當需要預測的token僅僅是前文中已出現內容的重複(即複製任務)時,混合模型的優勢幾乎消失,而這正是Transformer的強項。此外,在閉合括號(如代碼中的“}”)的預測上,Transformer與混合模型表現相當,因為注意力機制足以處理括號匹配。

為了更深入地理解這些差異,研究團隊採用了過濾損失的方法,僅分析特定類型token上的損失,從而在預訓練早期就能區分不同架構的能力。他們使用三個1B參數模型(純Transformer、混合模型、純遞歸模型)進行實驗,發現對非重複的內容詞,混合模型和純遞歸模型均優於Transformer,其中混合模型最佳;而在重複token上,缺乏注意力機制的純遞歸模型表現最差。

這些發現表明,單一的整體損失指標過於粗糙,不足以準確比較不同架構。通過聚焦於具體能力相關的token損失,可以更清晰地揭示架構的優劣勢。對於混合模型而言,其遞歸層在跟蹤狀態和處理開放類詞彙方面具有獨特優勢,這可能是其優於Transformer的關鍵。

研究團隊計劃將這些發現應用到後續的混合模型優化中,相信通過理解每個組件在token級別上的表現,能夠設計出更優的混合架構。完整報告已在arXiv上公開。