AI News HubLIVE
站內改寫2 分鐘閱讀

混合模型在哪些token上預測得更好?

Ai2團隊比較了7B引數規模的Transformer模型Olmo 3和混合模型Olmo Hybrid,發現混合模型在內容詞(名詞、動詞、形容詞)和需要上下文推理的token上表現更優,但在重複token和閉合括號上優勢消失。研究表明,基於token的損失過濾可以揭示架構間的細微差異。

Ai2團隊近期在一項研究中,將自家最強的7B引數Transformer模型Olmo 3與混合模型Olmo Hybrid進行了細緻對比,旨在揭示混合模型在token級別上的預測優勢。混合模型作為一種新興的語言模型架構,已在標準基準測試中展現出與Transformer相當甚至更優的效能,但具體的優勢模式尚不明確。

研究團隊透過對比兩個模型——它們在資料、分詞器和訓練方案上高度一致,唯架構不同——在預測各種型別token時的損失差異,來探究架構本身帶來的影響。token作為語言模型輸入的基本資訊單元,其預測難度因型別而異。

實驗結果顯示,混合模型在多數token上表現更優,但優勢並不均勻。具體而言,Olmo Hybrid在攜帶意義的token(如名詞、動詞、形容詞)上優勢明顯,損失差距約為0.04;而在語法功能詞(如“the”、“of”、“is”)上,優勢縮小至0.02左右。混合模型尤其擅長預測需要跟蹤上下文狀態的token,例如代詞所指代的物件。然而,當需要預測的token僅僅是前文中已出現內容的重複(即複製任務)時,混合模型的優勢幾乎消失,而這正是Transformer的強項。此外,在閉合括號(如程式碼中的“}”)的預測上,Transformer與混合模型表現相當,因為注意力機制足以處理括號匹配。

為了更深入地理解這些差異,研究團隊採用了過濾損失的方法,僅分析特定型別token上的損失,從而在預訓練早期就能區分不同架構的能力。他們使用三個1B引數模型(純Transformer、混合模型、純遞迴模型)進行實驗,發現對非重複的內容詞,混合模型和純遞迴模型均優於Transformer,其中混合模型最佳;而在重複token上,缺乏注意力機制的純遞迴模型表現最差。

這些發現表明,單一的整體損失指標過於粗糙,不足以準確比較不同架構。透過聚焦於具體能力相關的token損失,可以更清晰地揭示架構的優劣勢。對於混合模型而言,其遞迴層在跟蹤狀態和處理開放類詞彙方面具有獨特優勢,這可能是其優於Transformer的關鍵。

研究團隊計劃將這些發現應用到後續的混合模型最佳化中,相信透過理解每個元件在token級別上的表現,能夠設計出更優的混合架構。完整報告已在arXiv上公開。