AI News HubLIVE
サイト内リライト2 分で読了

ゼロ重みグラフ言語エンジン(MSE-GLM)

MSE-GLMは、学習された重みやニューラルネットワークを一切使用しない、完全に決定論的なCPU専用言語モデルです。推論はグラフ探索と明示的なルールに基づいて行われ、保証、監査可能性、低リソース消費が最優先される制約付きドメイン向けに設計されています。トレーニングはGPUなしで、コーパスを1回O(N)で通過するだけです。

ソースHacker News AI著者: fodokidza

MSEグラフ言語モデル(MSE-GLM)は、従来の言語モデルのパラダイムから根本的に逸脱しています。Transformerが大規模なニューラルネットワークと数十億の浮動小数点重みに依存するのに対し、MSE-GLMは重みなしで動作し、その操作は有向グラフの決定論的探索に完全に基づいています。このモデルは、文法制約生成、組み込みAI、および完全な監査可能な出力を必要とするコンプライアンス重視のアプリケーションなどのシナリオ向けに特別に設計されています。

その中核アーキテクチャは3つの行列で構成されています。エッジ行列(E)は、観測されたすべての隣接トークンペアの重複を除去したリストを格納します。ブリッジ行列(B)は、3トークンコンテキスト(ソース、ブリッジ、ターゲット)を記録することでコンテキストをtrigramレベルに拡張します。リレーションシップ行列(R)は、各trigramをそれが出現したトレーニング文に関連付け、系列認識推論を可能にします。追加のクラスタリングメカニズム(cluster_id)は、交換可能なトークンをグループ化し、埋め込みなしで象徴的な分布類似性を提供します。

トレーニングはコーパスに対する1回のO(N)パスです。逆伝播、勾配、GPUは必要ありません。結果のモデルはコンパクトなJSONファイルのセットとして永続化され、Pythonがインストールされた任意のマシンでロードおよびクエリできます。推論は4段階のパイプラインを通じて行われます。正確なブリッジマッチ、ブリッジ投票、bigram投票、最後に終了です。リレーションシップ行列による系列絞り込みにより、生成パスがトレーニングシーケンスと一致することが保証され、幻覚が排除されます。

たとえば、「the dog sat on the carpet」のような一般的なフレーズが共有trigramのために誤って複数のソースから系列を継承しないようにするなど、幻覚が発生しないことが保証されています。自動テストがこのような回帰をカバーしています。各生成ステップはexplain_step()メソッドを通じて完全にトレース可能であり、ステージ、ルール、候補セット、アクティブな系列を出力します。これによりモデルは完全に監査可能になります。

MSE-GLMは、オープンドメイン生成においてTransformerと競合することを意図していません。代わりに、決定論、解釈可能性、リソース効率が重要となるシナリオに最適化されています。ユースケースには、SQLやJSONなどの文法制約出力、Transformer出力の上に構造的ガードレールとしてのアーキテクチャ、Raspberry PiなどのデバイスでのエッジAI展開、そして各出力決定を人間が検査する必要があるコンプライアンスシステムが含まれます。モデルの開発は段階的に行われました。フェーズ1で中核アーキテクチャ、フェーズ2で系列認識タイブレークのためのリレーションシップ行列、フェーズ3で2軸クラスタリングが追加されました。このプロジェクトは完全にテストされており、56のテストすべてに合格しています。