2026-06-27 08:05 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

我从我的AI代理栈中移除了向量数据库

Moss是一个亚10毫秒语义搜索运行时，专为对话式AI代理设计。它通过将搜索和嵌入嵌入到应用进程中，消除了对远程向量数据库的需求，从而将查询延迟降至个位数毫秒。支持混合检索、内置嵌入、元数据过滤，并提供Python、TypeScript、Elixir、C等SDK，以及LangChain、LlamaIndex等框架集成。基准测试显示，在10万文档上，Moss的P50延迟为3.1毫秒，而Pinecone为432.6毫秒。

来源Hacker News AI作者: philosopherr

Moss是一个专门为对话式AI代理设计的亚10毫秒语义搜索运行时。其核心创新在于将搜索和嵌入功能直接嵌入到应用程序进程中，从而消除了对远程向量数据库的依赖，避免了网络往返延迟。这使得查询延迟降至个位数毫秒，对于构建实时语音机器人、副驾驶或任何需要与人类交互的AI代理来说，这决定了工具是感觉流畅还是明显滞后。

Moss支持混合检索（语义搜索与关键词搜索结合），内置了嵌入模型（无需OpenAI密钥），并提供元数据过滤功能（如$eq、$and、$in、$near等运算符）。此外，它还有一个WebAssembly构建版本（@moss-dev/moss-web），可以在浏览器中完全客户端运行，无需服务器。Moss还提供数据连接器，可以直接从SQLite、MongoDB、MySQL和Supabase摄取数据。

在性能方面，Moss在10万文档的基准测试（使用Macbook Pro M4 Pro，24GB内存）中表现惊人：P50延迟为3.1毫秒，P99为5.4毫秒。相比之下，Pinecone的P50为432.6毫秒，Qdrant为597.6毫秒，ChromaDB为351.8毫秒。这些测量包括了嵌入生成时间，而竞争对手使用的是外部嵌入服务。

Moss的架构由三部分组成：Moss Cloud（负责文档摄取、嵌入、存储和分发）、Index（将文档及其向量打包成单个工件存储在Moss Cloud上）以及Runtime（嵌入到应用程序中，通过HTTPS拉取索引并本地查询）。一旦索引加载完成，查询不会离开进程，从而实现了亚10毫秒的延迟。

Moss提供了丰富的SDK，支持Python（3.10+）、TypeScript/Node.js（20+）、Elixir和C（libmoss）。它还与LangChain、DSPy、LlamaIndex、CrewAI、AutoGen、Haystack、Mastra、Pydantic AI、Pipecat、LiveKit、Vapi、ElevenLabs等主流框架集成。此外，Moss的代码库中包含了大量示例和完整的应用程序，如Next.js语义搜索UI、Pipecat语音代理、Vapi语音代理等。

Moss采用BSD 2-Clause许可证完全开源，由Moss团队构建并获得了Y Combinator的支持。对于希望为AI代理构建高速检索层的开发者来说，Moss提供了一个无需管理数据库集群的轻量级解决方案。