2026-06-16站内改写3 分鐘閱讀更新: 2026-06-16

Databricks推出Lakebase Search：內建於Lakebase Postgres的智慧代理原生檢索系統

Databricks宣佈推出Lakebase Search，這是一款內建在Lakebase中的混合向量與全文檢索系統，目前已於AWS和Azure上提供Beta版本。該系統透過兩個原生Postgres擴充套件實現，允許代理迴圈完全依賴單一資料後端。Lakebase Search解決了傳統搜尋架構在處理大規模、多租戶資料時的高成本與低效率問題，透過層級化儲存和索引設計，實現了成本顯著降低且高效能的搜尋。

來源Databricks Blog

Databricks近日宣佈推出Lakebase Search，這是一款內建在Lakebase中的混合向量與全文檢索系統，目前已於AWS和Azure上提供Beta版本。該系統的核心是兩個原生Postgres擴充套件——lakebase_vector和lakebase_text，它們使得整個智慧代理迴圈能夠完全依賴單一資料後端，即一個Lakebase例項。

智慧代理將搜尋轉化為一個操作工作流：它們檢索上下文、推理、行動、記憶。這深度連線了讀取路徑（檢索）與寫入路徑（記憶），使得即時檢索對於即時訪問新生成的洞察至關重要。然而，在此之前的Postgres平臺中，並沒有一個專為大規模搜尋所需的經濟性而構建的原生解決方案。

搜尋對於智慧代理而言本質上是一個操作負載。與人類使用者不同，智慧代理對搜尋有著截然不同的需求。傳統搜尋引擎假定資料是隻讀的快照，但智慧代理將搜尋視為一個即時的運算元據庫。典型的代理模式中，分塊的文件和嵌入直接與活躍的對話記憶日誌共存，形成一個持續的讀寫迴圈。代理在一步中寫入新知識到記憶，下一步就需要該資料被完全索引並可搜尋。它們不僅需要快速檢索，還需要在最新寫入上實現即時搜尋。

搜尋是一種獨特的工作負載，有兩個鮮明特性。首先，儲存的資料量遠大於實際查詢的資料量，大部分資料處於冷狀態。其次，向量搜尋導致嚴重的資料膨脹：一個1KB的文本檔案在向量化後會顯著增大，因為文件被分割成多個塊，每個塊生成一個高維嵌入，這還不包括索引開銷。當擴充套件到數千個大多數處於空閒狀態的多租戶時，傳統搜尋架構就會崩潰。行業標準的向量索引（如HNSW）本質上是記憶體繫結的，因為快速圖遍歷嚴重依賴索引常駐RAM，所以託管冷多租戶資料的成本非常高昂。

去年，Databricks推出了Lakebase：一種無伺服器Postgres OLTP架構，資料儲存在廉價的雲物件儲存中，但分層快取（RAM、本地NVMe、頁面伺服器）確保熱頁以本地磁碟延遲讀取。團隊認識到這正是現代搜尋所需的架構。然而，要釋放這種經濟性而不犧牲查詢速度，需要一個專門為分層儲存層次結構設計的索引布局。因此，他們構建了Lakebase Search。

透過將分層架構與專門構建的分層索引配對，Lakebase Search實現了無速度懲罰的下一代規模：透過智慧地從物件儲存中僅獲取所需頁面到本地快取，較小的Postgres例項可以達到相同的召回率和延遲，而無需龐大的計算資源。經濟性方面，冷向量的尾部存放在近乎免費的物件儲存中，而熱工作集駐留在NVMe上。使用者只需為查詢的資料付費，而非儲存的資料。

在構建Lakebase Search時，團隊有兩個嚴格的要求：它必須是100% Postgres原生（重用標準的pgvector/tsvector型別和生態系統工具），並且索引必須從根本上為分層雲物件儲存而構建。為此，他們推出了兩個新的Postgres擴充套件（Beta版）。

lakebase_vector：透過RaBitQ（隨機二元量化）壓縮向量，將索引體積縮小32倍，同時保持高召回率。一個原本需要300GB RAM的一億向量索引現在可容納在10GB以下。減少的記憶體佔用使得單個索引能夠擴充套件到超過10億向量。活躍工作集快取在本地NVMe上，而冷尾部則駐留在物件儲存中。

lakebase_text：用針對雲物件儲存順序讀取最佳化的索引替代GIN，為Postgres引入原生BM25相關性排序，而無需GIN的記憶體佔用。由於兩個擴充套件在同一引擎中執行，混合搜尋可以透過單個SQL查詢實現，向量相似度和關鍵詞相關性透過倒數排名融合（RRF）結合。

基準測試表明，Lakebase Search在LAION-100M資料集（1億個768維向量）上，單例項單連線，溫快取查詢效能優異：Recall@10達到0.955時P99延遲為30毫秒，QPS為51。相比之下，標準pgvector需要512GB RAM的例項，索引構建約40小時；而lakebase_vector在192GB例項上執行，索引構建僅需1.5小時，且冷快取首次查詢只需1.13秒。

Lakebase Search為智慧代理提供了單一後端用於記憶和上下文，以及持續的搜尋實驗和專用檢索引擎等能力。代理無需再拼接向量資料庫和事務資料庫，整個代理迴圈在單一資料庫上執行。由於搜尋與運算元據相鄰，混合搜尋、連線應用表、按租戶安全過濾等操作可在單個SQL查詢中完成。

Lakebase Search Beta版現已於AWS和Azure上可用。