AI News HubLIVE
站内改写2 分鐘閱讀

使用Pinecone Serverless構建和部署RAG應用

本教程介紹如何利用Pinecone Serverless、LangChain和LangServe構建生產級RAG應用,解決原型與生產之間的差距,包括向量存儲管理、快速部署和可觀測性。

大型語言模型(LLM)正在開啓生成式AI應用的新紀元,成為新型操作系統的核心進程。與現代計算機擁有RAM和文件訪問類似,LLM擁有上下文窗口,可以加載從外部數據源(如數據庫或向量存儲)檢索到的信息。檢索到的信息加載到上下文窗口後,可用於LLM輸出生成,這一過程稱為檢索增強生成(RAG)。RAG是LLM應用開發中的核心概念,因為它可以通過基於檢索結果生成輸出來減少幻覺,並添加訓練數據中不存在的上下文。

鑑於這些要點,向量存儲在生產級RAG應用中獲得了廣泛關注,因為它們提供了一種存儲和檢索相關上下文的良好方式。特別是,語義相似性搜索常用於檢索與用户輸入相關的信息塊。然而,儘管過去幾個月分享了大量RAG演示,但其中許多使用Jupyter筆記本和本地向量存儲等工具,這些演示與生產級RAG應用之間存在幾個痛點。

第一個痛點是託管向量存儲的管理。用户需要自行配置Pinecone索引,並支付固定的月度費用,無論使用量多少。Pinecone Serverless的推出解決了這些問題,它通過雲對象存儲(如S3或GCS)提供“無限”索引容量,並顯著降低了服務成本,用户只需按使用量付費。

第二個痛點是RAG應用的快速部署。LangChain已廣泛用於快速原型開發,而LangServe則將任何使用LCEL(LangChain表達式語言)構建的鏈轉換為適合生產的Web服務。通過Hosted LangServe,這些鏈可以輕鬆管理。

第三個痛點是RAG應用的可觀測性。LangSmith提供了與LangServe無縫集成的LLM可觀測性平台,允許開發者監控輸入/輸出,調試每個Agent決策,並在一個點擊中部署。

為了展示這些組件如何協同工作,LangChain提供了一個模板倉庫。該倉庫演示瞭如何將Pinecone Serverless索引連接到LangChain的RAG鏈,該鏈使用Cohere嵌入進行語義搜索,並使用GPT-4基於檢索到的信息塊合成答案。同時,它還展示瞭如何將RAG鏈轉換為LangServe Web服務,並最終通過Hosted LangServe進行部署。

結論是,我們看到對彌合原型與生產之間差距的工具的需求日益增長。Pinecone Serverless憑藉按使用量定價和無限制擴展能力,幫助解決了社區在向量存儲生產化過程中遇到的痛點。它與LCEL、Hosted LangServe和LangSmith配合良好,支持輕鬆部署RAG應用。