2026-06-27 08:05 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

我從我的AI代理棧中移除了向量數據庫

Moss是一個亞10毫秒語義搜索運行時，專為對話式AI代理設計。它通過將搜索和嵌入嵌入到應用進程中，消除了對遠程向量數據庫的需求，從而將查詢延遲降至個位數毫秒。支持混合檢索、內置嵌入、元數據過濾，並提供Python、TypeScript、Elixir、C等SDK，以及LangChain、LlamaIndex等框架集成。基準測試顯示，在10萬文檔上，Moss的P50延遲為3.1毫秒，而Pinecone為432.6毫秒。

來源Hacker News AI作者: philosopherr

Moss是一個專門為對話式AI代理設計的亞10毫秒語義搜索運行時。其核心創新在於將搜索和嵌入功能直接嵌入到應用程序進程中，從而消除了對遠程向量數據庫的依賴，避免了網絡往返延遲。這使得查詢延遲降至個位數毫秒，對於構建實時語音機器人、副駕駛或任何需要與人類交互的AI代理來説，這決定了工具是感覺流暢還是明顯滯後。

Moss支持混合檢索（語義搜索與關鍵詞搜索結合），內置了嵌入模型（無需OpenAI密鑰），並提供元數據過濾功能（如$eq、$and、$in、$near等運算符）。此外，它還有一個WebAssembly構建版本（@moss-dev/moss-web），可以在瀏覽器中完全客户端運行，無需服務器。Moss還提供數據連接器，可以直接從SQLite、MongoDB、MySQL和Supabase攝取數據。

在性能方面，Moss在10萬文檔的基準測試（使用Macbook Pro M4 Pro，24GB內存）中表現驚人：P50延遲為3.1毫秒，P99為5.4毫秒。相比之下，Pinecone的P50為432.6毫秒，Qdrant為597.6毫秒，ChromaDB為351.8毫秒。這些測量包括了嵌入生成時間，而競爭對手使用的是外部嵌入服務。

Moss的架構由三部分組成：Moss Cloud（負責文檔攝取、嵌入、存儲和分發）、Index（將文檔及其向量打包成單個工件存儲在Moss Cloud上）以及Runtime（嵌入到應用程序中，通過HTTPS拉取索引並本地查詢）。一旦索引加載完成，查詢不會離開進程，從而實現了亞10毫秒的延遲。

Moss提供了豐富的SDK，支持Python（3.10+）、TypeScript/Node.js（20+）、Elixir和C（libmoss）。它還與LangChain、DSPy、LlamaIndex、CrewAI、AutoGen、Haystack、Mastra、Pydantic AI、Pipecat、LiveKit、Vapi、ElevenLabs等主流框架集成。此外，Moss的代碼庫中包含了大量示例和完整的應用程序，如Next.js語義搜索UI、Pipecat語音代理、Vapi語音代理等。

Moss採用BSD 2-Clause許可證完全開源，由Moss團隊構建並獲得了Y Combinator的支持。對於希望為AI代理構建高速檢索層的開發者來説，Moss提供了一個無需管理數據庫集羣的輕量級解決方案。