AI News HubLIVE
站内改写1 分钟阅读

零权重图语言引擎(MSE-GLM)

MSE-GLM是一种完全确定性的、基于CPU的语言模型,不使用任何学习到的权重或神经网络。它通过图遍历和显式规则进行推理,专为需要保证、可审计性和低资源消耗的受约束领域设计。训练只需单次O(N)遍历语料库,无需GPU。

来源Hacker News AI作者: fodokidza

MSE图语言模型(MSE-GLM)代表了一种背离传统语言模型范式的根本性转变。与依赖大规模神经网络和数十亿浮点权重的Transformer不同,MSE-GLM完全无权重运行,其操作完全基于有向图的确定性遍历。该模型经过专门设计,适用于语法约束生成、嵌入式AI以及需要完全可审计输出的合规敏感应用等场景。

其核心架构围绕三个矩阵构建:边矩阵(E)存储所有去重的相邻标记对;桥矩阵(B)通过记录三标记上下文(源-桥-目标)将上下文扩展到三元组级别;关系矩阵(R)将每个三元组与其出现的训练句子关联起来,从而启用谱系感知推理。一个额外的聚类机制(cluster_id)将可互换的标记分组,无需嵌入即可实现象征性的分布相似性。

训练过程是一场单次O(N)的语料库遍历——没有反向传播,没有梯度,也不需要GPU。生成的模型持久化为一组紧凑的JSON文件,可在任何安装了Python的机器上加载和查询。推理通过一个四阶段管线进行:精确桥匹配、桥投票、二元组投票,最后是终止。通过关系矩阵的谱系窄化确保生成路径与训练序列保持一致,从而消除幻觉。

为了确保零幻觉的承诺,例如“the dog sat on the carpet”这样的常见短语不会因为共享三元组而错误地继承多个来源的谱系。自动测试覆盖了这种回归情况。每个生成步骤都可以通过explain_step()方法完全追踪,该方法输出阶段、规则、候选集和活跃谱系——使模型完全可审计。

MSE-GLM并非旨在与Transformer在开放域生成方面竞争。相反,它针对以下场景进行了优化:确定性、可解释性和资源效率至关重要。用例包括SQL或JSON等语法约束输出、作为架构在Transformer输出之上的结构性护栏、在树莓派等设备上的边缘AI部署,以及要求人工检查每个输出决策的合规系统。该模型的开发分为多个阶段:第一阶段建立了核心架构,第二阶段添加了关系矩阵以实现谱系感知平局打破,第三阶段引入了双轴聚类。该项目已全面测试,所有56个测试均通过。