2026-06-05站内改写4 分钟阅读更新: 2026-06-05

Nexus 实战：早期客户带来的真实成果 | Pinecone

Pinecone Nexus 是一种知识引擎，通过预先编译结构化知识，大幅提升 AI 代理的准确性、降低延迟和成本。本文展示了三个企业案例：Melange 的专利搜索准确率提高 25%，延迟降低 77%，token 成本减少 97%；M&A 尽职调查准确率提升 14%，延迟降低 48%，token 成本减少 92%；Gong 通话转录的收入分析准确率提高 94%，延迟降低 18%，token 成本减少 85%。

来源Pinecone Blog

在过去的两年里，企业 AI 的讨论焦点从能力转向了成本和可靠性。大规模运行 AI 成本高昂，而且准确性和延迟在最困难的语料库上仍然存在问题。当团队审视他们的推理支出时，大部分并非用于推理本身，而是用于模型回答前的检索循环。

Pinecone Nexus 正是在基础设施层解决了这一问题。它不是在查询时临时组装知识，而是在查询到达之前从语料库中编译出结构化的知识片段，并根据数据的特定形状调整检索管道。Nexus 发布四周后，早期企业合作伙伴已经看到了真实成果：准确性、延迟和成本都得到了显著改善。

为了验证效果，Pinecone 对每个客户进行了基准测试，与当前企业代理部署中最常见的模式进行比较：将语料库分块、嵌入块、使用混合检索，然后通过代理循环（运行查询、重新排序、读取顶部块、再次检索）直到获得足够上下文。这种模式可以产生正确答案，但问题在于 token、时间和一致性方面的成本，以及这种成本在企业规模下是否可持续。

三个关键绩效指标：

Token 成本：单个查询消耗多少 token？在企业规模下，这决定了代理部署的经济性。
准确性：代理是否返回正确且可重复的答案？每个评估集都包含人工标注的问题和期望答案，由 LLM 评判（claude-sonnet-4-6）按 0-1 评分。
延迟：查询端到端耗时多少？对于嵌入实时工作流的代理，响应时间至关重要。

以下是三个早期客户案例的详细结果。

案例一：Melange 的标准必要专利搜索 Melange Technologies 运行着一个自主的大规模现有技术搜索引擎，服务于专利无效和诉讼领域的律师事务所。他们的核心产品是一个代理搜索系统，从约 1.4 亿份专利文档中筛选出最相关的十几份，并提供法律分析初稿。Melange 的下一步扩展方向是标准必要专利（SEP）。SEP 是实施行业标准所必需的专利，例如 5G 技术标准。确定一项专利是否真正必要通常昂贵且耗时，需要人类专家逐行比较专利权利要求与标准文档。此外，标准文档本身可以作为现有技术，可能使已公开的技术专利无效。

仅 3GPP 技术标准的第一版就有约 1,800 份文档，共 2.3 GB。试点评估了 5G NR 标准的一个聚焦子集（29 份规范，约 31 MB）。语料库来自 3GPP Release 18，评估集包含 30 个 SEP 候选问题，每个问题将专利式权利要求与标准语料库进行比较，判定是否必要。答案分为五类，并引用具体规范、条款和信息元素。

结果对比： | KPI | Agentic RAG | Nexus | 变化 | | --- | --- | --- | --- | | 准确性 | 52.7% | 66% | 提高 25% | | 延迟（平均） | 187秒 | 44秒 | 降低 77% | | Token 成本（平均） | 201k tokens | 5.9k tokens | 降低 97% | Agentic RAG 在该语料库上每个问题平均需要约 20 次检索步骤，因为索引不了解标准的结构。Nexus 在查询前将标准组织为可寻址的需求片段，直接检索到正确的条款，token 消耗从 201K 降至 5.9K。业务影响：97% 的 token 成本降低使之前成本高昂的自主专利搜索在经济上可行；不到一分钟的延迟符合诉讼时间线；准确性提高直接减少了律师审查时间。

Melange 的 CEO Joshua Beck 表示：“这些早期结果令人兴奋：在我们领域最困难的问题上，token 成本降低 34 倍，查询在不到一分钟内解决，表明我们走在正确的方向上。为 Pinecone 的 AI 基础设施添加一个专门构建的知识引擎已经显示出真正的业务影响。”

案例二：M&A 尽职调查 该客户是一家大型金融科技公司，服务于资产管理公司、对冲基金和私募股权公司。其客户处理大量文档，从中提取精确答案直接影响交易结果和监管风险。评估场景是 M&A 尽职调查，一个典型的中期收购数据室包含数百份文档，涵盖 10 多个类别：经审计的财务报表、资本化表、客户合同、知识产权文件、人力资源记录、房地产租赁、税务计划、法律治理文档等。问题通常跨文档，需要同时推理所有信息。

数据集是一个完整的合成 M&A 数据室，代表一家 ARR 为 4200 万美元的企业 SaaS 公司，包含 90 份文档，涵盖 10 个类别文件夹，文件格式包括 PDF、Excel 和 Markdown。评估集包含 30 个多跳 M&A 尽职调查问题，需要跨文档推理。

结果对比： | KPI | Agentic RAG | Nexus | 变化 | | --- | --- | --- | --- | | 准确性 | 57% | 65% | 提高 14% | | 延迟（平均） | 61秒 | 32秒 | 降低 48% | | Token 成本（平均） | 66k tokens | 5k tokens | 降低 92% | Nexus 在每个问题上只进行一次检索，而 Agentic RAG 需要约 10 次迭代步骤。Nexus 在查询前从数据室中派生出映射跨文档关系的结构化知识。业务影响：需要分析师数小时合成的工作流现在数秒完成。92% 的 token 成本降低和 48% 的延迟改善使 AI 在整个交易管道中的经济性发生根本变化。更高的准确性降低了遗漏负债或误读财务结构的风险。

案例三：基于 Gong 通话转录的收入分析 一家领先的 SMS 营销和销售平台为电子商务品牌提供销售和客户成功服务。其销售和 CS 团队每周进行大量客户通话，包括定价、入职、续约和竞争性交易，这些通话都被 Gong 捕获。关键在于，这些转录中蕴含的洞察在规模上难以获取。诸如“哪个竞争对手在通话中被提及最多？”或“列出几个 RCS 成为主要讨论主题的客户”之类的问题需要跨数十个通话综合模式。逐个搜索转录过于缓慢和昂贵。

数据集是一周内真实的 Gong 通话导出，包含 217 份结构化 JSON 转录，涵盖销售、CS 和定价对话，并嵌入了公司特定的跟踪数据（消息率、列表增长、流失指标、竞争对手提及、扩展信号）。评估集包含 40 个收入分析问题，需要跨通话合成、趋势识别和模式识别。

结果对比： | KPI | Agentic RAG | Nexus | 变化 | | --- | --- | --- | --- | | 准确性 | 36% | 70% | 提高 94% | | 延迟（平均） | 28秒 | 23秒 | 降低 18% | | Token 成本（平均） | 27K tokens | 4K tokens | 降低 85% | 准确性提升是三个案例中最大的，反映了 Agentic RAG 与聚合合成工作负载之间的根本不匹配。Agentic 循环一次遍历一个文档，无法同时查看整个语料库。Nexus 派生了通话数据的结构化表示，使跨通话模式直接可寻址。接近两倍的准确性提升是语料库级别编译的实际体现。

业务影响：以前需要分析师数小时的收入分析查询现在在 23 秒内完成，使销售团队能够实时获取竞争情报和客户趋势。

这些案例表明，Pinecone Nexus 通过预先编译知识，显著提升了企业 AI 应用的性能和经济性。