AI News HubLIVE
站內改寫1 分鐘閱讀

零權重圖語言引擎(MSE-GLM)

MSE-GLM是一種完全確定性的、基於CPU的語言模型,不使用任何學習到的權重或神經網路。它透過圖遍歷和顯式規則進行推理,專為需要保證、可審計性和低資源消耗的受約束領域設計。訓練只需單次O(N)遍歷語料庫,無需GPU。

來源Hacker News AI作者: fodokidza

MSE圖語言模型(MSE-GLM)代表了一種背離傳統語言模型正規化的根本性轉變。與依賴大規模神經網路和數十億浮點權重的Transformer不同,MSE-GLM完全無權重執行,其操作完全基於有向圖的確定性遍歷。該模型經過專門設計,適用於語法約束生成、嵌入式AI以及需要完全可審計輸出的合規敏感應用等場景。

其核心架構圍繞三個矩陣構建:邊矩陣(E)儲存所有去重的相鄰標記對;橋矩陣(B)透過記錄三標記上下文(源-橋-目標)將上下文擴充套件到三元組級別;關係矩陣(R)將每個三元組與其出現的訓練句子關聯起來,從而啟用譜系感知推理。一個額外的聚類機制(cluster_id)將可互換的標記分組,無需嵌入即可實現象徵性的分佈相似性。

訓練過程是一場單次O(N)的語料庫遍歷——沒有反向傳播,沒有梯度,也不需要GPU。生成的模型持久化為一組緊湊的JSON檔案,可在任何安裝了Python的機器上載入和查詢。推理透過一個四階段管線進行:精確橋匹配、橋投票、二元組投票,最後是終止。透過關係矩陣的譜系窄化確保生成路徑與訓練序列保持一致,從而消除幻覺。

為了確保零幻覺的承諾,例如“the dog sat on the carpet”這樣的常見短語不會因為共享三元組而錯誤地繼承多個來源的譜系。自動測試覆蓋了這種迴歸情況。每個生成步驟都可以透過explain_step()方法完全追蹤,該方法輸出階段、規則、候選集和活躍譜系——使模型完全可審計。

MSE-GLM並非旨在與Transformer在開放域生成方面競爭。相反,它針對以下場景進行了最佳化:確定性、可解釋性和資源效率至關重要。用例包括SQL或JSON等語法約束輸出、作為架構在Transformer輸出之上的結構性護欄、在樹莓派等裝置上的邊緣AI部署,以及要求人工檢查每個輸出決策的合規系統。該模型的開發分為多個階段:第一階段建立了核心架構,第二階段新增了關係矩陣以實現譜系感知平局打破,第三階段引入了雙軸聚類。該專案已全面測試,所有56個測試均透過。