Weaviate 1.38 發佈
此版本將基於磁盤的矢量索引 HFresh 和內置 MCP 服務器正式發佈,重新設計了集羣範圍的異步複製,並新增了 Boost API 和嵌套對象過濾兩個預覽功能。
Weaviate v1.38 現已開源並在 Weaviate Cloud 上可用。
此版本將兩項功能正式推出:HFresh 磁盤矢量索引和內置 MCP 服務器。異步複製已重構為從單個調度器跨集羣運行,並且現在默認在每個副本集合上啓用。同時新增加了兩個預覽功能:Boost API 用於查詢時重新評分,以及嵌套對象過濾。
HFresh 矢量索引(正式可用)
HFresh 是基於磁盤的矢量索引,受 SPFresh 算法啓發。它將矢量分組到磁盤上的區域(稱為發佈列表),並在內存中保留一個小型 HNSW 索引來管理這些區域的重心,從而決定讀取哪些區域。隨着集合增長到數十億級別,內存佔用保持低位,延遲保持可預測。HFresh 支持餘弦和 L2 平方距離度量,並內置 RQ-1 量化。與需要在磁盤上週期性重建的索引不同,HFresh 通過增量重新平衡(拆分過大的發佈列表、合併過小的發佈列表、重新分配矢量)來維持性能。要啓用 HFresh,只需在矢量配置中設置 vector_index_config 為 hfresh 即可。
MCP 服務器(正式可用)
內置的模型上下文協議(MCP)服務器現已正式可用。它使 LLM、IDE 和 AI 代理能夠直接與 Weaviate 交互——檢查模式、運行混合搜索以及寫入對象——無需膠水代碼。該服務器在 /v1/mcp 端點上作為 Streamable HTTP 端點運行,使用 Bearer/API 密鑰進行身份驗證,並遵守 Weaviate 的標準 RBAC 權限。它公開了四個工具:檢查集合配置、列出多租户集合的租户、運行混合搜索以及插入或更新對象。在 v1.38 中,MCP 服務器的啓用標記現在可以在運行時配置,無需重啓集羣。
異步複製,無處不在
異步複製是在複製因子大於 1 的集合上保持副本同步的後台修復過程。在 v1.38 中,它已重新架構為從單個調度器跨集羣運行,而不是按集合單獨配置和運行。現在它默認在每個 RF > 1 的集合上啓用。一個調度器協調所有複製集合的異步修復,共享一個工作線程池。之前的按集合設置 maxWorkers 和 enabled 已被移除,取而代之的是兩個集羣級控制:ASYNC_REPLICATION_SCHEDULER_WORKERS(設置共享池大小)和 ASYNC_REPLICATION_DISABLED(運行時殺死開關)。
Boost API(預覽)
有時候您希望調整結果而不刪除任何結果。過濾器過於生硬——它會刪除所有不匹配的結果——而實際上您可能希望將新鮮文章排名更高,或優先顯示庫存產品,同時保留完整結果集。新的 Boost API 正是為此而生。Boost 在主要搜索之後運行,通過將原始分數與一個或多個提升條件混合來重新評分候選結果,然後重新排序——提升或降低結果,而不刪除任何結果。條件可以基於過濾器匹配、屬性值、時間衰減或數值衰減。權重(0-1)決定了提升對最終分數的影響。Boost 僅通過 gRPC 可用,單個查詢最多可應用 20 個條件。
嵌套對象過濾(預覽)
Weaviate v1.38 增加了一個預覽功能,允許對嵌套對象屬性進行過濾。在此之前,object 和 object[] 屬性可以存儲但無法直接過濾。現在,您可以通過點路徑(例如 cars.make)引用嵌套字段進行過濾。該功能默認關閉,需要通過環境變量 WEAVIATE_PREVIEW_NESTED_FILTERING 啓用。一旦啓用,點路徑可以在任何需要屬性名稱的地方使用,包括來自客户端。這適用於 object 和 object[] 屬性內的嵌套數據。
性能改進和修復
除了主要功能外,v1.38 還包含一系列改進: 生產就緒的副本移動(基於變更捕獲日誌)、默認矢量索引類型設置、使用限制(對象數、集合數、租户數、分片數的服務器端限制)、新模塊 text2vec-digitalocean、備份可靠性改進(不再暫停壓縮,對象存儲列表更快)、分數 BM25 屬性提升、確定性平局打破、更快的啓動速度和改進的壓縮矢量索引緩存。
社區貢獻
感謝多位首次貢獻者的貢獻,包括 @dillonledoux(text2vec-digitalocean 模塊)、@anishesg(倒排索引和 HFresh 修復)、@msnandhis(分數 BM25 屬性提升)、@3em0(拒絕重複靜態 API 密鑰)、@kedar49(DB 用户標識符衝突檢查)和 @SAY-5(HFresh 穩定性修復)。
總結
Weaviate v1.38 將兩項功能正式發佈(HFresh 和 MCP 服務器),同時重構了異步複製路徑並新增了兩個預覽功能。關鍵亮點包括:HFresh(正式可用)用於流式工作負載,MCP 服務器(正式可用)提供 AI 代理集成,集羣範圍的異步複製默認啓用,以及 Boost API 和嵌套對象過濾的預覽。
開始使用吧!
該版本已在 GitHub 上開源,並已在 Weaviate Cloud 上提供新沙盒。升級自託管版本的用户請查看遷移指南中的版本説明。