2026-06-01 14:18 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

GrafoPropagation：基于几何注意力的小型文本分类架构

GrafoPropagation 是一个仅约 99 万参数的文本分类架构，采用 von Mises-Fisher (vMF) 双尺度注意力、黎曼时间嵌入、动态图连接、全局工作空间记忆、系统2潜在搜索以及量子学习率调制等创新技术，在 AG News 数据集上微调后验证准确率达 93.1%。

来源Hacker News AI作者: sunbagger

GrafoPropagation 是一种全新的文本分类架构，由 Claudio Fernandes 开发，目前以专有许可形式发布在 GitHub 上。它仅使用约 99 万个参数，但在 AG News 数据集上微调后验证准确率达到了 93.1%，展现了极高的参数效率。

该架构的核心创新在于将几何深度学习和认知科学理念相结合。其注意力机制基于 von Mises-Fisher (vMF) 分布，将查询和键投影到单位超球面上，并通过可学习的浓度参数 κ 实现局部与全局双尺度注意力。此外，模型引入了非对称的查询-键投影，增强了表达能力。

在位置编码方面，GrafoPropagation 采用了黎曼时间嵌入和旋转位置编码（RoPE）处理序列信息。动态图连接（Dynamic GrafoConnect）允许跨层的可学习跳跃连接，而全局工作空间记忆模块则借鉴了全局工作空间理论，通过可学习的广播槽实现信息的全局共享。

模型还集成了一个系统2潜在搜索模块，通过分支-评估-合并迭代和基于 Gumbel 的蒙特卡洛树搜索（MCTS）进行推理，模拟了类似人类深思熟虑的决策过程。训练过程中，量子学习率调制利用 PennyLane 库的 8 量子比特电路动态调整学习率。

GrafoPropagation 的训练分为两个阶段：首先在 WordNet 定义上进行 1500 个周期的词典预训练，然后在 AG News 上进行 30 个周期的微调。预训练结束时词典损失降至 0.04481。用户可以通过配置参数轻松扩展模型大小，从默认的 99 万参数到最高 3000 万参数。

该模型的代码结构清晰，包含完整的训练管线、日志记录和命令行接口，依赖 PyTorch、PennyLane 等主流框架。尽管参数规模极小，GrafoPropagation 在文本分类任务上展现了极具竞争力的性能，为资源受限场景下的 NLP 应用提供了新的思路。