2026-06-27 08:05 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

我從我的AI代理棧中移除了向量資料庫

Moss是一個亞10毫秒語義搜尋執行時，專為對話式AI代理設計。它透過將搜尋和嵌入嵌入到應用程序中，消除了對遠端向量資料庫的需求，從而將查詢延遲降至個位數毫秒。支援混合檢索、內建嵌入、後設資料過濾，並提供Python、TypeScript、Elixir、C等SDK，以及LangChain、LlamaIndex等框架整合。基準測試顯示，在10萬文件上，Moss的P50延遲為3.1毫秒，而Pinecone為432.6毫秒。

來源Hacker News AI作者: philosopherr

Moss是一個專門為對話式AI代理設計的亞10毫秒語義搜尋執行時。其核心創新在於將搜尋和嵌入功能直接嵌入到應用程式程序中，從而消除了對遠端向量資料庫的依賴，避免了網路往返延遲。這使得查詢延遲降至個位數毫秒，對於構建即時語音機器人、副駕駛或任何需要與人類互動的AI代理來說，這決定了工具是感覺流暢還是明顯滯後。

Moss支援混合檢索（語義搜尋與關鍵詞搜尋結合），內建了嵌入模型（無需OpenAI金鑰），並提供後設資料過濾功能（如$eq、$and、$in、$near等運算子）。此外，它還有一個WebAssembly構建版本（@moss-dev/moss-web），可以在瀏覽器中完全客戶端執行，無需伺服器。Moss還提供資料聯結器，可以直接從SQLite、MongoDB、MySQL和Supabase攝取資料。

在效能方面，Moss在10萬文件的基準測試（使用Macbook Pro M4 Pro，24GB記憶體）中表現驚人：P50延遲為3.1毫秒，P99為5.4毫秒。相比之下，Pinecone的P50為432.6毫秒，Qdrant為597.6毫秒，ChromaDB為351.8毫秒。這些測量包括了嵌入生成時間，而競爭對手使用的是外部嵌入服務。

Moss的架構由三部分組成：Moss Cloud（負責文件攝取、嵌入、儲存和分發）、Index（將文件及其向量打包成單個工件儲存在Moss Cloud上）以及Runtime（嵌入到應用程式中，透過HTTPS拉取索引並本地查詢）。一旦索引載入完成，查詢不會離開程序，從而實現了亞10毫秒的延遲。

Moss提供了豐富的SDK，支援Python（3.10+）、TypeScript/Node.js（20+）、Elixir和C（libmoss）。它還與LangChain、DSPy、LlamaIndex、CrewAI、AutoGen、Haystack、Mastra、Pydantic AI、Pipecat、LiveKit、Vapi、ElevenLabs等主流框架整合。此外，Moss的程式碼庫中包含了大量示例和完整的應用程式，如Next.js語義搜尋UI、Pipecat語音代理、Vapi語音代理等。

Moss採用BSD 2-Clause許可證完全開源，由Moss團隊構建並獲得了Y Combinator的支援。對於希望為AI代理構建高速檢索層的開發者來說，Moss提供了一個無需管理資料庫叢集的輕量級解決方案。