Nexus 實戰:早期客户帶來的真實成果 | Pinecone
Pinecone Nexus 是一種知識引擎,通過預先編譯結構化知識,大幅提升 AI 代理的準確性、降低延遲和成本。本文展示了三個企業案例:Melange 的專利搜索準確率提高 25%,延遲降低 77%,token 成本減少 97%;M&A 盡職調查準確率提升 14%,延遲降低 48%,token 成本減少 92%;Gong 通話轉錄的收入分析準確率提高 94%,延遲降低 18%,token 成本減少 85%。
在過去的兩年裏,企業 AI 的討論焦點從能力轉向了成本和可靠性。大規模運行 AI 成本高昂,而且準確性和延遲在最困難的語料庫上仍然存在問題。當團隊審視他們的推理支出時,大部分並非用於推理本身,而是用於模型回答前的檢索循環。
Pinecone Nexus 正是在基礎設施層解決了這一問題。它不是在查詢時臨時組裝知識,而是在查詢到達之前從語料庫中編譯出結構化的知識片段,並根據數據的特定形狀調整檢索管道。Nexus 發佈四周後,早期企業合作伙伴已經看到了真實成果:準確性、延遲和成本都得到了顯著改善。
為了驗證效果,Pinecone 對每個客户進行了基準測試,與當前企業代理部署中最常見的模式進行比較:將語料庫分塊、嵌入塊、使用混合檢索,然後通過代理循環(運行查詢、重新排序、讀取頂部塊、再次檢索)直到獲得足夠上下文。這種模式可以產生正確答案,但問題在於 token、時間和一致性方面的成本,以及這種成本在企業規模下是否可持續。
三個關鍵績效指標:
- Token 成本:單個查詢消耗多少 token?在企業規模下,這決定了代理部署的經濟性。
- 準確性:代理是否返回正確且可重複的答案?每個評估集都包含人工標註的問題和期望答案,由 LLM 評判(claude-sonnet-4-6)按 0-1 評分。
- 延遲:查詢端到端耗時多少?對於嵌入實時工作流的代理,響應時間至關重要。
以下是三個早期客户案例的詳細結果。
案例一:Melange 的標準必要專利搜索 Melange Technologies 運行着一個自主的大規模現有技術搜索引擎,服務於專利無效和訴訟領域的律師事務所。他們的核心產品是一個代理搜索系統,從約 1.4 億份專利文檔中篩選出最相關的十幾份,並提供法律分析初稿。Melange 的下一步擴展方向是標準必要專利(SEP)。SEP 是實施行業標準所必需的專利,例如 5G 技術標準。確定一項專利是否真正必要通常昂貴且耗時,需要人類專家逐行比較專利權利要求與標準文檔。此外,標準文檔本身可以作為現有技術,可能使已公開的技術專利無效。
僅 3GPP 技術標準的第一版就有約 1,800 份文檔,共 2.3 GB。試點評估了 5G NR 標準的一個聚焦子集(29 份規範,約 31 MB)。語料庫來自 3GPP Release 18,評估集包含 30 個 SEP 候選問題,每個問題將專利式權利要求與標準語料庫進行比較,判定是否必要。答案分為五類,並引用具體規範、條款和信息元素。
結果對比: | KPI | Agentic RAG | Nexus | 變化 | | --- | --- | --- | --- | | 準確性 | 52.7% | 66% | 提高 25% | | 延遲(平均) | 187秒 | 44秒 | 降低 77% | | Token 成本(平均) | 201k tokens | 5.9k tokens | 降低 97% | Agentic RAG 在該語料庫上每個問題平均需要約 20 次檢索步驟,因為索引不瞭解標準的結構。Nexus 在查詢前將標準組織為可尋址的需求片段,直接檢索到正確的條款,token 消耗從 201K 降至 5.9K。業務影響:97% 的 token 成本降低使之前成本高昂的自主專利搜索在經濟上可行;不到一分鐘的延遲符合訴訟時間線;準確性提高直接減少了律師審查時間。
Melange 的 CEO Joshua Beck 表示:“這些早期結果令人興奮:在我們領域最困難的問題上,token 成本降低 34 倍,查詢在不到一分鐘內解決,表明我們走在正確的方向上。為 Pinecone 的 AI 基礎設施添加一個專門構建的知識引擎已經顯示出真正的業務影響。”
案例二:M&A 盡職調查 該客户是一家大型金融科技公司,服務於資產管理公司、對沖基金和私募股權公司。其客户處理大量文檔,從中提取精確答案直接影響交易結果和監管風險。評估場景是 M&A 盡職調查,一個典型的中期收購數據室包含數百份文檔,涵蓋 10 多個類別:經審計的財務報表、資本化表、客户合同、知識產權文件、人力資源記錄、房地產租賃、税務計劃、法律治理文檔等。問題通常跨文檔,需要同時推理所有信息。
數據集是一個完整的合成 M&A 數據室,代表一家 ARR 為 4200 萬美元的企業 SaaS 公司,包含 90 份文檔,涵蓋 10 個類別文件夾,文件格式包括 PDF、Excel 和 Markdown。評估集包含 30 個多跳 M&A 盡職調查問題,需要跨文檔推理。
結果對比: | KPI | Agentic RAG | Nexus | 變化 | | --- | --- | --- | --- | | 準確性 | 57% | 65% | 提高 14% | | 延遲(平均) | 61秒 | 32秒 | 降低 48% | | Token 成本(平均) | 66k tokens | 5k tokens | 降低 92% | Nexus 在每個問題上只進行一次檢索,而 Agentic RAG 需要約 10 次迭代步驟。Nexus 在查詢前從數據室中派生出映射跨文檔關係的結構化知識。業務影響:需要分析師數小時合成的工作流現在數秒完成。92% 的 token 成本降低和 48% 的延遲改善使 AI 在整個交易管道中的經濟性發生根本變化。更高的準確性降低了遺漏負債或誤讀財務結構的風險。
案例三:基於 Gong 通話轉錄的收入分析 一家領先的 SMS 營銷和銷售平台為電子商務品牌提供銷售和客户成功服務。其銷售和 CS 團隊每週進行大量客户通話,包括定價、入職、續約和競爭性交易,這些通話都被 Gong 捕獲。關鍵在於,這些轉錄中藴含的洞察在規模上難以獲取。諸如“哪個競爭對手在通話中被提及最多?”或“列出幾個 RCS 成為主要討論主題的客户”之類的問題需要跨數十個通話綜合模式。逐個搜索轉錄過於緩慢和昂貴。
數據集是一週內真實的 Gong 通話導出,包含 217 份結構化 JSON 轉錄,涵蓋銷售、CS 和定價對話,並嵌入了公司特定的跟蹤數據(消息率、列表增長、流失指標、競爭對手提及、擴展信號)。評估集包含 40 個收入分析問題,需要跨通話合成、趨勢識別和模式識別。
結果對比: | KPI | Agentic RAG | Nexus | 變化 | | --- | --- | --- | --- | | 準確性 | 36% | 70% | 提高 94% | | 延遲(平均) | 28秒 | 23秒 | 降低 18% | | Token 成本(平均) | 27K tokens | 4K tokens | 降低 85% | 準確性提升是三個案例中最大的,反映了 Agentic RAG 與聚合合成工作負載之間的根本不匹配。Agentic 循環一次遍歷一個文檔,無法同時查看整個語料庫。Nexus 派生了通話數據的結構化表示,使跨通話模式直接可尋址。接近兩倍的準確性提升是語料庫級別編譯的實際體現。
業務影響:以前需要分析師數小時的收入分析查詢現在在 23 秒內完成,使銷售團隊能夠實時獲取競爭情報和客户趨勢。
這些案例表明,Pinecone Nexus 通過預先編譯知識,顯著提升了企業 AI 應用的性能和經濟性。