2026-06-26 00:11 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-26 00:15 UTC+8

混合模型在哪些token上預測得更好？

Ai2團隊比較了7B引數規模的Transformer模型Olmo 3和混合模型Olmo Hybrid，發現混合模型在內容詞（名詞、動詞、形容詞）和需要上下文推理的token上表現更優，但在重複token和閉合括號上優勢消失。研究表明，基於token的損失過濾可以揭示架構間的細微差異。

來源Hugging Face Blog

Ai2團隊近期在一項研究中，將自家最強的7B引數Transformer模型Olmo 3與混合模型Olmo Hybrid進行了細緻對比，旨在揭示混合模型在token級別上的預測優勢。混合模型作為一種新興的語言模型架構，已在標準基準測試中展現出與Transformer相當甚至更優的效能，但具體的優勢模式尚不明確。

研究團隊透過對比兩個模型——它們在資料、分詞器和訓練方案上高度一致，唯架構不同——在預測各種型別token時的損失差異，來探究架構本身帶來的影響。token作為語言模型輸入的基本資訊單元，其預測難度因型別而異。

實驗結果顯示，混合模型在多數token上表現更優，但優勢並不均勻。具體而言，Olmo Hybrid在攜帶意義的token（如名詞、動詞、形容詞）上優勢明顯，損失差距約為0.04；而在語法功能詞（如“the”、“of”、“is”）上，優勢縮小至0.02左右。混合模型尤其擅長預測需要跟蹤上下文狀態的token，例如代詞所指代的物件。然而，當需要預測的token僅僅是前文中已出現內容的重複（即複製任務）時，混合模型的優勢幾乎消失，而這正是Transformer的強項。此外，在閉合括號（如程式碼中的“}”）的預測上，Transformer與混合模型表現相當，因為注意力機制足以處理括號匹配。

為了更深入地理解這些差異，研究團隊採用了過濾損失的方法，僅分析特定型別token上的損失，從而在預訓練早期就能區分不同架構的能力。他們使用三個1B引數模型（純Transformer、混合模型、純遞迴模型）進行實驗，發現對非重複的內容詞，混合模型和純遞迴模型均優於Transformer，其中混合模型最佳；而在重複token上，缺乏注意力機制的純遞迴模型表現最差。

這些發現表明，單一的整體損失指標過於粗糙，不足以準確比較不同架構。透過聚焦於具體能力相關的token損失，可以更清晰地揭示架構的優劣勢。對於混合模型而言，其遞迴層在跟蹤狀態和處理開放類詞彙方面具有獨特優勢，這可能是其優於Transformer的關鍵。

研究團隊計劃將這些發現應用到後續的混合模型最佳化中，相信透過理解每個元件在token級別上的表現，能夠設計出更優的混合架構。完整報告已在arXiv上公開。