我從我的AI代理棧中移除了向量數據庫
Moss是一個亞10毫秒語義搜索運行時,專為對話式AI代理設計。它通過將搜索和嵌入嵌入到應用進程中,消除了對遠程向量數據庫的需求,從而將查詢延遲降至個位數毫秒。支持混合檢索、內置嵌入、元數據過濾,並提供Python、TypeScript、Elixir、C等SDK,以及LangChain、LlamaIndex等框架集成。基準測試顯示,在10萬文檔上,Moss的P50延遲為3.1毫秒,而Pinecone為432.6毫秒。
Moss是一個專門為對話式AI代理設計的亞10毫秒語義搜索運行時。其核心創新在於將搜索和嵌入功能直接嵌入到應用程序進程中,從而消除了對遠程向量數據庫的依賴,避免了網絡往返延遲。這使得查詢延遲降至個位數毫秒,對於構建實時語音機器人、副駕駛或任何需要與人類交互的AI代理來説,這決定了工具是感覺流暢還是明顯滯後。
Moss支持混合檢索(語義搜索與關鍵詞搜索結合),內置了嵌入模型(無需OpenAI密鑰),並提供元數據過濾功能(如$eq、$and、$in、$near等運算符)。此外,它還有一個WebAssembly構建版本(@moss-dev/moss-web),可以在瀏覽器中完全客户端運行,無需服務器。Moss還提供數據連接器,可以直接從SQLite、MongoDB、MySQL和Supabase攝取數據。
在性能方面,Moss在10萬文檔的基準測試(使用Macbook Pro M4 Pro,24GB內存)中表現驚人:P50延遲為3.1毫秒,P99為5.4毫秒。相比之下,Pinecone的P50為432.6毫秒,Qdrant為597.6毫秒,ChromaDB為351.8毫秒。這些測量包括了嵌入生成時間,而競爭對手使用的是外部嵌入服務。
Moss的架構由三部分組成:Moss Cloud(負責文檔攝取、嵌入、存儲和分發)、Index(將文檔及其向量打包成單個工件存儲在Moss Cloud上)以及Runtime(嵌入到應用程序中,通過HTTPS拉取索引並本地查詢)。一旦索引加載完成,查詢不會離開進程,從而實現了亞10毫秒的延遲。
Moss提供了豐富的SDK,支持Python(3.10+)、TypeScript/Node.js(20+)、Elixir和C(libmoss)。它還與LangChain、DSPy、LlamaIndex、CrewAI、AutoGen、Haystack、Mastra、Pydantic AI、Pipecat、LiveKit、Vapi、ElevenLabs等主流框架集成。此外,Moss的代碼庫中包含了大量示例和完整的應用程序,如Next.js語義搜索UI、Pipecat語音代理、Vapi語音代理等。
Moss採用BSD 2-Clause許可證完全開源,由Moss團隊構建並獲得了Y Combinator的支持。對於希望為AI代理構建高速檢索層的開發者來説,Moss提供了一個無需管理數據庫集羣的輕量級解決方案。