我從我的AI代理棧中移除了向量資料庫
Moss是一個亞10毫秒語義搜尋執行時,專為對話式AI代理設計。它透過將搜尋和嵌入嵌入到應用程序中,消除了對遠端向量資料庫的需求,從而將查詢延遲降至個位數毫秒。支援混合檢索、內建嵌入、後設資料過濾,並提供Python、TypeScript、Elixir、C等SDK,以及LangChain、LlamaIndex等框架整合。基準測試顯示,在10萬文件上,Moss的P50延遲為3.1毫秒,而Pinecone為432.6毫秒。
Moss是一個專門為對話式AI代理設計的亞10毫秒語義搜尋執行時。其核心創新在於將搜尋和嵌入功能直接嵌入到應用程式程序中,從而消除了對遠端向量資料庫的依賴,避免了網路往返延遲。這使得查詢延遲降至個位數毫秒,對於構建即時語音機器人、副駕駛或任何需要與人類互動的AI代理來說,這決定了工具是感覺流暢還是明顯滯後。
Moss支援混合檢索(語義搜尋與關鍵詞搜尋結合),內建了嵌入模型(無需OpenAI金鑰),並提供後設資料過濾功能(如$eq、$and、$in、$near等運算子)。此外,它還有一個WebAssembly構建版本(@moss-dev/moss-web),可以在瀏覽器中完全客戶端執行,無需伺服器。Moss還提供資料聯結器,可以直接從SQLite、MongoDB、MySQL和Supabase攝取資料。
在效能方面,Moss在10萬文件的基準測試(使用Macbook Pro M4 Pro,24GB記憶體)中表現驚人:P50延遲為3.1毫秒,P99為5.4毫秒。相比之下,Pinecone的P50為432.6毫秒,Qdrant為597.6毫秒,ChromaDB為351.8毫秒。這些測量包括了嵌入生成時間,而競爭對手使用的是外部嵌入服務。
Moss的架構由三部分組成:Moss Cloud(負責文件攝取、嵌入、儲存和分發)、Index(將文件及其向量打包成單個工件儲存在Moss Cloud上)以及Runtime(嵌入到應用程式中,透過HTTPS拉取索引並本地查詢)。一旦索引載入完成,查詢不會離開程序,從而實現了亞10毫秒的延遲。
Moss提供了豐富的SDK,支援Python(3.10+)、TypeScript/Node.js(20+)、Elixir和C(libmoss)。它還與LangChain、DSPy、LlamaIndex、CrewAI、AutoGen、Haystack、Mastra、Pydantic AI、Pipecat、LiveKit、Vapi、ElevenLabs等主流框架整合。此外,Moss的程式碼庫中包含了大量示例和完整的應用程式,如Next.js語義搜尋UI、Pipecat語音代理、Vapi語音代理等。
Moss採用BSD 2-Clause許可證完全開源,由Moss團隊構建並獲得了Y Combinator的支援。對於希望為AI代理構建高速檢索層的開發者來說,Moss提供了一個無需管理資料庫叢集的輕量級解決方案。