AI News HubLIVE
站內改寫4 分鐘閱讀

Weaviate v1.37 釋出:內建 MCP 伺服器、可擴充套件分詞器、多樣性搜尋與查詢分析預覽

Weaviate v1.37 正式釋出,帶來多項預覽功能:內建 MCP 伺服器(與 AI 代理和 IDE 原生整合)、可擴充套件分詞器(支援變音摺疊與自定義停用詞)、基於最大邊際相關性(MMR)的多樣性搜尋、查詢分析(按分片顯示耗時)。此外還新增增量備份、Gemini 音訊支援(multi2vec-google 模組)和 BlobHash 屬性型別。

Weaviate v1.37 現已開源釋出,並可在 Weaviate Cloud 上使用。本次更新專注於擴充套件 Weaviate 的能力,涵蓋與 AI 代理的互動、文本分析以及大規模操作的處理。四個新的預覽功能加入此版本:內建的 MCP 伺服器,讓 LLM 和 IDE 能夠原生地與資料庫通訊;可擴充套件分詞器,支援變音摺疊和自定義停用詞預設;多樣性搜尋(MMR),減少向量結果的冗餘;以及查詢分析,提供按分片的耗時分解。此外,增量備份使得大規模集合的備份變得實用;Gemini 音訊支援加入 multi2vec-google 模組;新的 BlobHash 屬性型別只儲存雜湊而非完整 blob。

MCP 伺服器(預覽)

Weaviate v1.37 引入了內建的模型上下文協議(MCP)伺服器,作為預覽提供。MCP 是一個開放標準,允許大型語言模型和 AI 代理安全地與外部系統互動。透過在 Weaviate 中直接實現它,你可以將資料庫連線到相容的客戶端——包括 Claude Code、Claude Desktop、Cursor、VS Code 以及其他任何支援 MCP 的工具——而無需編寫任何膠水程式碼。這使 Weaviate 從被動的檢索引擎轉變為代理工作流的主動長期記憶:LLM 可以檢查集合模式、執行混合搜尋並將資料寫回你的例項,所有這些都受 Weaviate 標準認證和授權的約束。該伺服器作為流式 HTTP 端點實現,位於 REST API 相同埠的 /v1/mcp 上。預設情況下停用,透過單個環境變數啟用。啟用後,伺服器暴露四個工具:檢查集合模式、列出多租戶集合的租戶、執行混合搜尋以及插入或更新物件。如果使用 RBAC,MCP 訪問由三個新許可權控制。你可以透過掛載 YAML 或 JSON 配置檔案來自定義 LLM 看到的工具描述。

可擴充套件分詞器(預覽)

關鍵詞搜尋質量在 BM25 執行計算之前就已決定——由將文本轉換為標記的分析器決定。新增三個功能:變音摺疊(textAnalyzer.asciiFold 標誌將帶變音符號的拉丁字元規範化為 ASCII 等效字元,索引和查詢時均適用)、自定義和按屬性停用詞(可宣告命名的停用詞預設並分配給不同屬性,適用於多語言集合),以及 tokenize 端點(兩個新的 REST 端點使分詞過程透明,返回包括索引標記和查詢標記的結構化響應)。

基於 MMR 的多樣性搜尋(預覽)

標準向量搜尋的一個已知副作用是它聚集了近重複項。Weaviate v1.37 引入了最大邊際相關性(MMR)作為一個新的查詢時重新排序步驟,作為預覽提供。MMR 迭代地選擇最相關的專案,然後懲罰與已選擇專案過於相似的候選者——因此每個新結果必須透過新增新內容來贏得其位置。透過在 Python 客戶端中新增 selection 引數來使用。MMR 在查詢時應用,在現有向量索引之上進行,無需重新索引或模式更改。

查詢分析(預覽)

當查詢緩慢時,第一個問題總是“時間花在哪裡了?” Weaviate v1.37 透過查詢分析輕鬆回答這個問題——作為預覽提供,它將按分片的耗時分解附加到任何搜尋請求上。透過設定 query_profile=True 來請求分析資料。分析按分片和搜尋型別(向量、關鍵詞、物件)結構化,包含如 vector_search_took、filters_ids_matched、knn_search_layer_N_took 等指標。對於混合搜尋,每個分片同時包含向量和關鍵詞部分。對於多節點叢集,協調器彙總所有分片的計時,每個條目包括執行它的節點,從而容易發現效能不平衡。

增量備份

每晚備份 100GB 的集合成本高昂,當只有少量資料發生變化時。Weaviate v1.37 引入了增量備份:自上次備份以來未更改的檔案作為引用儲存,而不是再次複製。結果是備份體積大幅減小,備份時間顯著加快。備份執行時,Weaviate 將大檔案分割成塊。在增量備份期間,每個塊與基礎備份進行比較——如果未更改,則儲存指標而非檔案。恢復時,Weaviate 自動遍歷鏈並從較早的備份中拉取引用的檔案。建立增量備份需要先有一個完整備份作為基礎。你還可以鏈式建立增量備份,每個引用前一個,以廉價地構建較長的歷史記錄。恢復增量備份與恢復完整備份完全相同——Weaviate 解析鏈並根據需要從較早備份中獲取檔案。請注意,基礎備份(以及鏈中的任何中間增量備份)必須保持可用,只要你需要從依賴它們的增量備份中恢復。另外,在 v1.37 中,INACTIVE(COLD)租戶現在也包含在備份中,直接從磁碟讀取而無需啟用。

Gemini 音訊支援

multi2vec-google 模組現在支援音訊作為第四種模態,除了文本、影像和影片。透過新的 audioFields 設定配置音訊屬性,與 imageFields 或 videoFields 相同。音訊支援僅透過 Gemini API(Google AI Studio)可用——Vertex AI 目前不支援音訊嵌入。這使得 Gemini API 路徑對於任何需要將文本、視覺和音訊內容統一到單個向量空間的多模態用例具有吸引力。

BlobHash 屬性型別

如果你使用像 multi2vec-google 這樣的模組來向量化媒體,向量化器在匯入時只需要原始位元組——之後,blob 就只是佔用儲存空間。v1.37 中的新 blobHash 資料型別直接解決了這個問題:它接受 base64 編碼的輸入(像 blob 一樣),但在磁碟上僅持久儲存 SHA-256 雜湊。原始的 base64 資料仍然流經向量化管道,因此模組可以嵌入實際的媒體內容。僅在向量化之後,Weaviate 才用其雜湊替換負載。在後續更新中,傳入資料被雜湊並與儲存的雜湊比較,以決定是否需要重新向量化。這非常適合那些你希望向量存在於 Weaviate 中但規範媒體存在於物件儲存(如 S3)中的工作流——雜湊讓你能夠關聯回原始檔案,而無需支付重複儲存的磁碟成本。

多項效能改進與修復

Weaviate v1.37 還包含許多較小的功能和改進。亮點包括:集合匯出(預覽):新的 /v1/export API 允許將集合匯出到 S3、GCS、Azure 或本地檔案系統,格式為 Apache Parquet;HFresh 改進:多項最佳化減少了記憶體使用、磁碟寫入並改進了備份期間的出隊;DEFAULT_SHARDING_COUNT 環境變數:覆蓋新單租戶集合的預設 desiredCount;S3 assume role 用於備份:備份-s3 模組現在支援 AWS assume role 身份驗證;Google AI Studio 在 multi2vec-google 中:Google AI Studio API 金鑰現在可與 multi2vec-google 模組一起使用;IPv6 叢集:Weaviate 現在支援用於內部叢集通訊的 IPv6 地址;內部叢集 gRPC:副本通訊從 REST 遷移到 gRPC,改進了連線管理和摘要響應的二進位制編碼;Reranker-cohere v2:Cohere 重排序模組從 v1 升級到 v2 重排序端點;OIDC 不安全 TLS 跳過:新的 AUTHENTICATION_OIDC_INSECURE_SKIP_TLS_VERIFY 環境變數用於開發和測試環境中的自簽名或不受信任證書的 OIDC 頒發者;效能:HNSW 稀疏訪問列表、預計算平均屬性長度、延遲量化直到快取預填充、備份期間的非阻塞壓縮、更好的段搜尋點陣圖處理等;錯誤修復:最終一致性改進、RBAC 恢復競爭條件、向量索引錯誤處理、IPv6 地址解析、過濾器邊緣情況等。

社群貢獻

Weaviate 是一個開源專案,我們總是很高興看到來自社群的貢獻。本次釋出特別感謝首次貢獻者 @junjieqi,他為叢集貢獻了 IPv6 支援。

總結

Weaviate v1.37 拓寬了你的資料與堆疊其餘部分的整合方式——從 AI 代理和 IDE 到分析管道和多語言工作負載。關鍵亮點包括 MCP 伺服器、可擴充套件分詞器、MMR 多樣性搜尋、查詢分析、增量備份、Gemini 音訊支援和 BlobHash 屬性型別。此版本現已開源,並可在 Weaviate Cloud 上用於新的 Sandbox。