AI News HubLIVE
站内改写2 分で読了

Pinecone ServerlessでRAGアプリを構築・デプロイする

Pinecone Serverless、LangChain、LangServeを使用して、プロダクション対応のRAGアプリを構築するチュートリアル。ベクトルストア管理、迅速なデプロイ、可観測性といった課題に対処します。

大規模言語モデル(LLM)は、生成AIアプリケーションの新時代を切り開き、新しいオペレーティングシステムのカーネルプロセスとなっています。現代のコンピュータにRAMやファイルアクセスがあるように、LLMにはコンテキストウィンドウがあり、データベースやベクトルストアなどの外部データソースから取得した情報を読み込むことができます。取得した情報をコンテキストウィンドウに読み込み、LLMの出力生成に利用するプロセスは、検索拡張生成(RAG)と呼ばれます。RAGはLLMアプリ開発の中核概念であり、取得した情報に基づいて出力を生成することで幻覚を減らし、トレーニングデータに含まれないコンテキストを追加できます。

こうした背景から、ベクトルストアはプロダクションRAGアプリケーションで広く採用されています。特にセマンティック類似性検索は、ユーザーの入力に関連する情報チャンクを取得するために一般的に使用されます。しかし、これまで共有された多くのRAGデモはJupyterノートブックやローカルベクトルストアを使用しており、プロダクションRAGアプリケーションとの間にはいくつかの課題があります。

1つ目の課題は、ホスト型ベクトルストアの管理です。ユーザーはPineconeインデックスを自分でプロビジョニングし、使用量に関わらず固定の月額料金を支払う必要がありました。Pinecone Serverlessのリリースはこれらの問題を解決し、クラウドオブジェクトストレージ(S3やGCSなど)を介した「無制限」のインデックス容量と、使用量に応じた料金体系を提供します。

2つ目の課題は、RAGアプリケーションの迅速なデプロイです。LangChainは迅速なプロトタイピングに広く使われていますが、LangServeはLCEL(LangChain Expression Language)で構成された任意のチェーンを、プロダクション対応のWebサービスに変換します。Hosted LangServeを使用すれば、これらのチェーンを簡単に管理できます。

3つ目の課題は、RAGアプリケーションの可観測性です。LangSmithはLangServeとシームレスに統合するLLM可観測性プラットフォームを提供し、開発者が入出力を監視し、各エージェントの決定をデバッグし、ワンクリックでデプロイできるようにします。

これらのコンポーネントがどのように連携するかを示すために、LangChainはテンプレートリポジトリを提供しています。このリポジトリは、Pinecone ServerlessインデックスをLangChainのRAGチェーンに接続する方法を示しています。このチェーンは、セマンティック検索にCohere埋め込みを使用し、取得したチャンクに基づいて回答を合成するためにGPT-4を使用します。さらに、RAGチェーンをLangServe Webサービスに変換し、最終的にHosted LangServeを介してデプロイする方法も示しています。

結論として、プロトタイピングとプロダクションのギャップを埋めるツールへの需要が高まっています。Pinecone Serverlessは、従量課金制と無制限のスケーリングサポートにより、コミュニティから寄せられていたベクトルストアのプロダクション化に関する課題を解決します。Pinecone ServerlessはLCEL、Hosted LangServe、LangSmithと組み合わせることで、RAGアプリケーションの簡単なデプロイを支援します。