2026-06-02 00:53 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

遇见 Memory OS：基于 Hermes Agent 的六层开源记忆栈

Memory OS 是一个新的 MIT 许可库，为 Hermes Agent 增加了六层记忆，包括向量数据库、结构化事实和自动整理的百科。它完全本地运行，需要 Docker、Qdrant、Redis，并注重 token 效率。

来源MarkTechPost作者: Michal Sutter

Hermes Agent 已经具备跨会话记忆能力。Nous Research 的开源智能体附带策划的记忆文件和全文会话搜索。但一个新的社区项目认为内置记忆对严肃工作来说过于浅薄。一个名为“Memory OS”的新库已由开发者 ClaudioDrews 以 MIT 许可证发布。它在 Hermes 之上堆叠了六层记忆，增加了向量数据库、结构化事实和自动策划的知识百科。该项目虽新但潜力巨大，其架构展示了代理记忆如何分层构建。

Memory OS 并非一个可以随意开关的 Hermes 插件。它是一个与 Hermes Agent 自身记忆并行的分层系统。Hermes 已经提供工作区文件和会话数据库。Memory OS 保留了这些，并在此基础上增加了四层。完整栈使用 Docker、Qdrant、Redis 和 Python 3.11+ 本地运行。它适用于 Hermes 支持的任何 LLM 提供商，包括 OpenRouter、OpenAI、Anthropic 和 Ollama。README 将其描述为“记忆操作系统”，而非单一功能。

六层结构从文件到向量：第一层工作区包含 MEMORY.md、USER.md 和 CREATIVE.md，每轮注入系统提示。第二层会话使用 state.db（带 FTS5 全文搜索的 SQLite 数据库）记录对话历史。第三层结构化事实将持久事实存储在 memory_store.db 中，使用 SQLite、HRR、FTS5 和信任评分，并通过反馈循环随时间调整信任评分。第四层 Fabric 是 Icarus 插件的重度分支，添加了基于 LLM 的会话提取，提供 16 个工具用于跨会话召回。第五层向量数据库基于 Qdrant，使用 4096 维余弦向量加 BM25 稀疏搜索。第六层 LLM 百科是一个自动策划的概念、实体和比较库，通过持续摄入过程回注到 Qdrant。

检索流程：在 pre_llm_call 阶段，Memory OS 执行所谓的外科召回，同时从 Fabric、Qdrant、会话和事实四个源拉取信息。每个源通过相关性门控后才到达模型。每会话去重防止相同上下文重复出现。社交过滤器忽略琐碎消息。在 post_llm_call 和 on_session_end 阶段，系统自动提取和捕获新知识。其目标是 token 效率，而非填满上下文窗口。

降级级联与清理：第 5 层的检索使用四级降级：先尝试混合搜索，然后是稠密向量、词汇搜索，最后是 SQLite。若某一方法失败，下一方法接管。Memory OS 还运行每周衰减扫描以淘汰陈旧条目，语义去重合并余弦相似度超过 0.92 的近似记忆。这些维护步骤旨在防止记忆在长期使用中膨胀。

Memory OS 定位与云记忆服务（如 mem0、Zep、Letta）对立，主张记忆基础设施应运行在本地机器上。记忆数据保持本地，无需记忆订阅。LLM 调用仍可连接任意提供商。Hermes 本身已支持八种外部记忆提供商，但 Memory OS 并非其中之一，而是社区构建的独立堆栈。对于有数据驻留规则团队，本地记忆存储很重要。

优势：清晰的分层设计分离文件、会话、事实、向量和百科；全本地基础设施无需云记忆订阅；提供商无关，匹配 Hermes Agent 的灵活性；通过门控源和每会话去重实现 token 高效检索。局限性：全新，提交次数少；Fabric 分支与上游不兼容；设置较重，需要 Docker、Qdrant、Redis 和 ARQ Worker；无已发布的召回质量、延迟或 token 节省基准。

关键要点：Memory OS 是一个社区构建的 MIT 许可堆栈，在 Hermes Agent 上增加六层记忆。它结合工作区文件、FTS5 会话搜索、信任评分事实、Fabric 分支、Qdrant 向量和自动策划的 LLM 百科。检索在 pre_llm_call 阶段进行门控去重召回，捕获在 post_llm_call 和 on_session_end 阶段进行。记忆基础设施全本地且提供商无关，但 LLM 调用仍需连接所选提供商。