AI News HubLIVE
站内改写1 分钟阅读

GrafoPropagation:基于几何注意力的小型文本分类架构

GrafoPropagation 是一个仅约 99 万参数的文本分类架构,采用 von Mises-Fisher (vMF) 双尺度注意力、黎曼时间嵌入、动态图连接、全局工作空间记忆、系统2潜在搜索以及量子学习率调制等创新技术,在 AG News 数据集上微调后验证准确率达 93.1%。

来源Hacker News AI作者: sunbagger

GrafoPropagation 是一种全新的文本分类架构,由 Claudio Fernandes 开发,目前以专有许可形式发布在 GitHub 上。它仅使用约 99 万个参数,但在 AG News 数据集上微调后验证准确率达到了 93.1%,展现了极高的参数效率。

该架构的核心创新在于将几何深度学习和认知科学理念相结合。其注意力机制基于 von Mises-Fisher (vMF) 分布,将查询和键投影到单位超球面上,并通过可学习的浓度参数 κ 实现局部与全局双尺度注意力。此外,模型引入了非对称的查询-键投影,增强了表达能力。

在位置编码方面,GrafoPropagation 采用了黎曼时间嵌入和旋转位置编码(RoPE)处理序列信息。动态图连接(Dynamic GrafoConnect)允许跨层的可学习跳跃连接,而全局工作空间记忆模块则借鉴了全局工作空间理论,通过可学习的广播槽实现信息的全局共享。

模型还集成了一个系统2潜在搜索模块,通过分支-评估-合并迭代和基于 Gumbel 的蒙特卡洛树搜索(MCTS)进行推理,模拟了类似人类深思熟虑的决策过程。训练过程中,量子学习率调制利用 PennyLane 库的 8 量子比特电路动态调整学习率。

GrafoPropagation 的训练分为两个阶段:首先在 WordNet 定义上进行 1500 个周期的词典预训练,然后在 AG News 上进行 30 个周期的微调。预训练结束时词典损失降至 0.04481。用户可以通过配置参数轻松扩展模型大小,从默认的 99 万参数到最高 3000 万参数。

该模型的代码结构清晰,包含完整的训练管线、日志记录和命令行接口,依赖 PyTorch、PennyLane 等主流框架。尽管参数规模极小,GrafoPropagation 在文本分类任务上展现了极具竞争力的性能,为资源受限场景下的 NLP 应用提供了新的思路。