Nexus 実戦投入:アーリーアクセス顧客の実績 | Pinecone
Pinecone Nexus は、クエリ前に構造化された知識をコンパイルすることで、AI エージェントの精度向上、レイテンシとコスト削減を実現するナレッジエンジンです。本記事では3つの企業事例を紹介:Melange の特許検索では精度25%向上、レイテンシ77%削減、トークンコスト97%削減;M&A デューデリジェンスでは精度14%向上、レイテンシ48%削減、トークンコスト92%削減;Gong 通話文字起こしの収益分析では精度94%向上、レイテンシ18%削減、トークンコスト85%削減。
ここ数年、エンタープライズ AI の議論は能力からコストと信頼性へと焦点が移りました。AI を大規模に運用するにはコストがかかり、最も難しいコーパスでは精度とレイテンシが依然として課題です。チームが推論支出の内訳を調べると、そのほとんどは推論そのものではなく、モデルが応答する前の検索ループに費やされています。
Pinecone Nexus はインフラストラクチャ層でこの問題に取り組みます。クエリ時に知識を組み立てるのではなく、クエリが到着する前にコーパスから構造化されたアーティファクトをコンパイルし、データの形状に合わせて検索パイプラインを調整します。Nexus はリリースから4週間で、実際のエンタープライズデータセットを持つアーリーアクセスユーザーと連携し、その成果を上げています。
ベンチマークでは、各顧客に対して Nexus を現在のエンタープライズエージェントデプロイで最も一般的なパターン(コーパスのチャンク化、チャンクの埋め込み、ハイブリッド検索、エージェントループ)と比較しました。このアプローチでも正しい回答は得られますが、トークン、時間、一貫性のコストが問題です。
3つの KPI:
- トークンコスト:単一クエリあたりのトークン消費量。エンタープライズ規模では、エージェントデプロイの経済性を左右します。
- 精度:エージェントが正しい回答を再現可能に返すか。各評価セットは人間がラベル付けした質問と期待される回答から構成され、LLM ジャッジ(claude-sonnet-4-6)により0-1スケールで評価。
- レイテンシ:クエリのエンドツーエンド時間。ライブワークフローに組み込まれたエージェントにとって、応答時間は重要です。
3つの事例の詳細は以下の通りです。
事例1:Melange の標準必須特許検索 Melange Technologies は、特許無効化・訴訟分野の法律事務所向けに、自律型大規模先行技術検索エンジンを運営しています。中核製品はエージェント検索システムで、約1.4億件の特許文書から最も関連性の高い数十件をフィルタリングし、法律分析の初稿を提供します。Melange の次の拡張分野は標準必須特許(SEP)です。SEP は業界標準の実施に必要な特許であり、例えば5G対応スマートフォンを製造する企業は5G技術標準の一部を実装する必要があります。特許がその必須部分をカバーする場合、標準を実践することで必然的にその特許を実践することになります。SEP の分析は高額で時間がかかり、人間の専門家が特許クレームと標準文書を一行ずつ比較する必要があります。
3GPP 技術標準のリリース1だけでも約1,800文書、2.3 GB に及びます。パイロット評価では5G NR 標準の29仕様サブセット(約31 MB)に焦点を当てました。コーパスは3GPP Release 18、評価セットは30のSEP候補質問で、各質問は特許クレームを標準コーパスと照合し、必須かどうかを判定します。回答は5つの評決(必須、条件付き必須、オプション、禁止、不在)と正確な仕様、条項、情報要素が引用されます。
結果: | KPI | Agentic RAG | Nexus | 変化 | | --- | --- | --- | --- | | 精度 | 52.7% | 66% | 25%向上 | | レイテンシ(平均) | 187秒 | 44秒 | 77%削減 | | トークンコスト(平均) | 201k tokens | 5.9k tokens | 97%削減 | Agentic RAG はこのコーパスで質問あたり平均約20回の検索ステップを要しました。Nexus はクエリ前に標準をアドレス可能な要求アーティファクトに整理し、正しい条項を直接取得しました。ビジネスインパクト:97%のトークンコスト削減により、以前はコストが高かった自律型特許検索が経済的に viable に。1分未満のレイテンシで訴訟のタイムラインに適合。精度向上により弁護士のレビュー時間が直接削減されます。
Melange の CEO Joshua Beck 氏:「これらの初期結果は本当にエキサイティングです。当分野で最も難しい問題の1つでトークンコストが34倍削減され、クエリが1分未満で解決するのは、正しい方向を示しています。Pinecone の AI インフラに専用ナレッジエンジンを追加することで、すでに実際のビジネスインパクトの兆候が見えており、Nexus が特許検索の要求に完全に適合するよう進化していくことを楽しみにしています。」
事例2:M&A デューデリジェンス 顧客は大規模な金融テクノロジー企業で、資産運用会社、ヘッジファンド、プライベートエクイティファームにサービスを提供しています。クライアントは文書集約型環境で活動し、大規模な文書セットから正確な回答を抽出することが取引結果と規制リスクに直接影響します。評価シナリオは M&A デューデリジェンスで、中規模買収のデータルームには10以上のカテゴリ(監査済み財務諸表、資本構成表、顧客契約、IP ファイリング、人事記録、不動産リース、税務スケジュール、法務ガバナンス文書)にわたる数百の文書が含まれます。質問は単一の文書に収まらず、すべてを同時に推論する必要があります。
データセットは、ARR 4200万ドルのエンタープライズ SaaS 企業を想定した完全な合成 M&A データルームで、10カテゴリフォルダに90文書(PDF、Excel、Markdown)が含まれます。評価セットは30のマルチホップ M&A デューデリジェンス質問で、クロス文書推論が必要です。
結果: | KPI | Agentic RAG | Nexus | 変化 | | --- | --- | --- | --- | | 精度 | 57% | 65% | 14%向上 | | レイテンシ(平均) | 61秒 | 32秒 | 48%削減 | | トークンコスト(平均) | 66k tokens | 5k tokens | 92%削減 | Nexus は各質問を1回の検索ステップで解決したのに対し、Agentic RAG は約10回の反復ステップを要しました。Nexus はクエリ前にデータルームからクロス文書関係をマッピングするアーティファクトを派生させました。ビジネスインパクト:アナリストが時間をかけてフォルダ横断で統合していたワークフローが数秒で完了。92%のトークンコスト削減と48%のレイテンシ低下により、ディールパイプライン全体での AI 導入の経済性が根本的に変化。高精度により、見落とされた負債や誤解された財務構造のリスクが低減されます。
事例3:Gong トランスクリプトからの収益インテリジェンス 大手 SMS マーケティング・セールスプラットフォームのセールスおよび CS チームは、毎週多数の顧客向け通話(価格交渉、オンボーディング、更新、競合案件)を実施しており、これらはすべて Gong で記録されています。課題は、これらのトランスクリプトに閉じ込められたインサイトが大規模にはアクセスできないことです。「どの競合他社がこれらの通話で最も言及されているか?」や「RCS が主要な議論トピックである顧客を複数挙げてください」といった質問には、複数の通話を同時に合成する必要があります。エージェントループで一度に1つのトランスクリプトを検索するのは遅く、コストがかかります。
データセットは1週間分の実際の Gong 通話エクスポートで、217件の構造化 JSON トランスクリプト(セールス、CS、価格交渉)が含まれ、企業固有のトラッカーデータ(メッセージ率、リスト成長、チャーン指標、競合言及、拡大シグナル)が埋め込まれています。評価セットは40の収益インテリジェンス質問で、クロス通話合成、トレンド識別、パターン認識が必要です。
結果: | KPI | Agentic RAG | Nexus | 変化 | | --- | --- | --- | --- | | 精度 | 36% | 70% | 94%向上 | | レイテンシ(平均) | 28秒 | 23秒 | 18%削減 | | トークンコスト(平均) | 27K tokens | 4K tokens | 85%削減 | 精度向上は3事例で最大であり、Agentic RAG と集合合成ワークロードの根本的なミスマッチを反映しています。エージェントループは一度に1文書ずつ反復し、全文書を同時に見渡せません。Nexus は通話データの構造化表現を派生させ、クロス通話パターンを直接アドレス可能にしました。ほぼ2倍の精度向上は、コーパスレベルのコンパイルが実際にどのように機能するかを示しています。
ビジネスインパクト:以前はアナリストが時間をかけて行っていた収益分析クエリが23秒で完了し、セールスチームはリアルタイムで競合情報や顧客トレンドを取得できるようになりました。
これらの事例は、Pinecone Nexus が事前に知識をコンパイルすることで、エンタープライズ AI アプリケーションのパフォーマンスと経済性を大幅に向上させることを示しています。