AI News HubLIVE
站内改写2 分鐘閱讀

使用Pinecone Serverless構建和部署RAG應用

本教程介紹如何利用Pinecone Serverless、LangChain和LangServe構建生產級RAG應用,解決原型與生產之間的差距,包括向量儲存管理、快速部署和可觀測性。

大型語言模型(LLM)正在開啟生成式AI應用的新紀元,成為新型作業系統的核心程序。與現代計算機擁有RAM和檔案訪問類似,LLM擁有上下文視窗,可以載入從外部資料來源(如資料庫或向量儲存)檢索到的資訊。檢索到的資訊載入到上下文視窗後,可用於LLM輸出生成,這一過程稱為檢索增強生成(RAG)。RAG是LLM應用開發中的核心概念,因為它可以透過基於檢索結果生成輸出來減少幻覺,並新增訓練資料中不存在的上下文。

鑑於這些要點,向量儲存在生產級RAG應用中獲得了廣泛關注,因為它們提供了一種儲存和檢索相關上下文的良好方式。特別是,語義相似性搜尋常用於檢索與使用者輸入相關的資訊塊。然而,儘管過去幾個月分享了大量RAG演示,但其中許多使用Jupyter筆記本和本地向量儲存等工具,這些演示與生產級RAG應用之間存在幾個痛點。

第一個痛點是託管向量儲存的管理。使用者需要自行配置Pinecone索引,並支付固定的月度費用,無論使用量多少。Pinecone Serverless的推出解決了這些問題,它透過雲物件儲存(如S3或GCS)提供“無限”索引容量,並顯著降低了服務成本,使用者只需按使用量付費。

第二個痛點是RAG應用的快速部署。LangChain已廣泛用於快速原型開發,而LangServe則將任何使用LCEL(LangChain表示式語言)構建的鏈轉換為適合生產的Web服務。透過Hosted LangServe,這些鏈可以輕鬆管理。

第三個痛點是RAG應用的可觀測性。LangSmith提供了與LangServe無縫整合的LLM可觀測性平臺,允許開發者監控輸入/輸出,除錯每個Agent決策,並在一個點選中部署。

為了展示這些元件如何協同工作,LangChain提供了一個模板倉庫。該倉庫演示瞭如何將Pinecone Serverless索引連線到LangChain的RAG鏈,該鏈使用Cohere嵌入進行語義搜尋,並使用GPT-4基於檢索到的資訊塊合成答案。同時,它還展示瞭如何將RAG鏈轉換為LangServe Web服務,並最終透過Hosted LangServe進行部署。

結論是,我們看到對彌合原型與生產之間差距的工具的需求日益增長。Pinecone Serverless憑藉按使用量定價和無限制擴充套件能力,幫助解決了社群在向量儲存生產化過程中遇到的痛點。它與LCEL、Hosted LangServe和LangSmith配合良好,支援輕鬆部署RAG應用。