AI News HubLIVE
站内改写1 分钟阅读

我从我的AI代理栈中移除了向量数据库

Moss是一个亚10毫秒语义搜索运行时,专为对话式AI代理设计。它通过将搜索和嵌入嵌入到应用进程中,消除了对远程向量数据库的需求,从而将查询延迟降至个位数毫秒。支持混合检索、内置嵌入、元数据过滤,并提供Python、TypeScript、Elixir、C等SDK,以及LangChain、LlamaIndex等框架集成。基准测试显示,在10万文档上,Moss的P50延迟为3.1毫秒,而Pinecone为432.6毫秒。

来源Hacker News AI作者: philosopherr

Moss是一个专门为对话式AI代理设计的亚10毫秒语义搜索运行时。其核心创新在于将搜索和嵌入功能直接嵌入到应用程序进程中,从而消除了对远程向量数据库的依赖,避免了网络往返延迟。这使得查询延迟降至个位数毫秒,对于构建实时语音机器人、副驾驶或任何需要与人类交互的AI代理来说,这决定了工具是感觉流畅还是明显滞后。

Moss支持混合检索(语义搜索与关键词搜索结合),内置了嵌入模型(无需OpenAI密钥),并提供元数据过滤功能(如$eq、$and、$in、$near等运算符)。此外,它还有一个WebAssembly构建版本(@moss-dev/moss-web),可以在浏览器中完全客户端运行,无需服务器。Moss还提供数据连接器,可以直接从SQLite、MongoDB、MySQL和Supabase摄取数据。

在性能方面,Moss在10万文档的基准测试(使用Macbook Pro M4 Pro,24GB内存)中表现惊人:P50延迟为3.1毫秒,P99为5.4毫秒。相比之下,Pinecone的P50为432.6毫秒,Qdrant为597.6毫秒,ChromaDB为351.8毫秒。这些测量包括了嵌入生成时间,而竞争对手使用的是外部嵌入服务。

Moss的架构由三部分组成:Moss Cloud(负责文档摄取、嵌入、存储和分发)、Index(将文档及其向量打包成单个工件存储在Moss Cloud上)以及Runtime(嵌入到应用程序中,通过HTTPS拉取索引并本地查询)。一旦索引加载完成,查询不会离开进程,从而实现了亚10毫秒的延迟。

Moss提供了丰富的SDK,支持Python(3.10+)、TypeScript/Node.js(20+)、Elixir和C(libmoss)。它还与LangChain、DSPy、LlamaIndex、CrewAI、AutoGen、Haystack、Mastra、Pydantic AI、Pipecat、LiveKit、Vapi、ElevenLabs等主流框架集成。此外,Moss的代码库中包含了大量示例和完整的应用程序,如Next.js语义搜索UI、Pipecat语音代理、Vapi语音代理等。

Moss采用BSD 2-Clause许可证完全开源,由Moss团队构建并获得了Y Combinator的支持。对于希望为AI代理构建高速检索层的开发者来说,Moss提供了一个无需管理数据库集群的轻量级解决方案。