Cortex – 基于Markdown的Agent原生知识操作系统(Karpathy的LLM Wiki,通过MCP)
PULSE8.ai Cortex是一个基于Markdown的Agent原生知识操作系统,为AI代理和人类提供共享的知识库,支持知识图谱、全文搜索、文件编译等功能,通过统一的MCP接口访问。灵感来源于Andrej Karpathy的LLM Wiki模式,无需数据库即可运行。
PULSE8.ai Cortex是一个面向AI代理的、基于Markdown的知识操作系统,旨在为AI和人类提供一个共享的、持续积累的知识库。该系统受Andrej Karpathy的LLM Wiki模式启发,所有知识以Markdown文件形式存储,并通过知识图谱、全文搜索和文件编译等核心功能实现高效管理。
Cortex的核心特色包括:
- 知识图谱:基于NetworkX的图引擎,自动维护维基链接、标签和自定义边,每次文件变更时同步更新。
- 全文搜索:使用QMD搜索引擎,支持混合模式(BM25+向量+重排序)、纯关键字和纯语义搜索,结果可缓存。
- 文件编译器:通过MarkItDown将PDF、DOCX、PPTX、XLSX、HTML、图片等原始文件转换为Markdown,仅交叉引用时使用LLM。
- MCP服务器:支持流式HTTP和stdio传输,可无缝连接Claude Desktop、Cursor等MCP客户端。
- 反馈与通知:vault_feedback捕获质量反馈,可选Microsoft Teams Webhook每提交发送自适应卡片。
- 日常活动日志:每次写入、导入和编译操作自动记录到每日Markdown文件中,便于追踪。
- 批量导入:一次性导入数十或数百个文件,通过SHA-256去重,并发编译,无需运行服务器。
- REST API:FastAPI端点镜像所有MCP工具,位于/api/v1/,支持多文件上传和批量导入。
- 仓库监控:实时文件系统监控,图谱自动保持同步。
- 零数据库:所有数据持久化为Markdown和JSON文件。
系统架构上,Cortex通过Docker容器化部署,默认包含Cortex API/MCP服务(端口8420)和QMD搜索服务(端口3100)。存储层为挂载的卷,包含wiki/、raw/、agents/、sessions/、daily/、feedback/等文件夹,以及.cortex/内部目录。所有数据持久化为Markdown和JSON文件,无需传统数据库。
仓库布局方面,Cortex将每个文件分类为类型节点:wiki/(笔记)、raw/(原始源)、agents/(代理定义)、sessions/(会话笔记)、daily/(每日笔记)、feedback/(反馈)。分类优先级:frontmatter类型 > 文件夹前缀 > 文件名后缀。例如,daily/2026-06-10.md自动归类为每日笔记。
日常活动日志:每次vault_write、vault_ingest和成功编译事件自动镜像到daily/YYYY-MM-DD.md,格式为## [HH:MM] event | summary,并包含维基链接。
批量导入:推荐使用./scripts/bulk_ingest.sh脚本,直接从本地目录读取,通过SHA-256去重,并发编译,最后重建索引。支持dry-run、force重导入、并发控制等选项。也可通过Python CLI或REST API实现。
配置通过.env文件完成,关键变量包括LLM_API_KEY(仅用于交叉引用)、COMPILER_MODEL、VAULT_DIR、QMD搜索参数、AUTH_METHOD(none/apikey/oidc)等。认证支持无认证、API密钥和Microsoft Entra ID OIDC。
总之,Cortex为AI代理提供了一个轻量级、可扩展的知识管理基础设施,特别适合希望将知识库与AI工作流深度集成的开发者和团队。