Nexus 实战:早期客户带来的真实成果 | Pinecone
Pinecone Nexus 是一种知识引擎,通过预先编译结构化知识,大幅提升 AI 代理的准确性、降低延迟和成本。本文展示了三个企业案例:Melange 的专利搜索准确率提高 25%,延迟降低 77%,token 成本减少 97%;M&A 尽职调查准确率提升 14%,延迟降低 48%,token 成本减少 92%;Gong 通话转录的收入分析准确率提高 94%,延迟降低 18%,token 成本减少 85%。
在过去的两年里,企业 AI 的讨论焦点从能力转向了成本和可靠性。大规模运行 AI 成本高昂,而且准确性和延迟在最困难的语料库上仍然存在问题。当团队审视他们的推理支出时,大部分并非用于推理本身,而是用于模型回答前的检索循环。
Pinecone Nexus 正是在基础设施层解决了这一问题。它不是在查询时临时组装知识,而是在查询到达之前从语料库中编译出结构化的知识片段,并根据数据的特定形状调整检索管道。Nexus 发布四周后,早期企业合作伙伴已经看到了真实成果:准确性、延迟和成本都得到了显著改善。
为了验证效果,Pinecone 对每个客户进行了基准测试,与当前企业代理部署中最常见的模式进行比较:将语料库分块、嵌入块、使用混合检索,然后通过代理循环(运行查询、重新排序、读取顶部块、再次检索)直到获得足够上下文。这种模式可以产生正确答案,但问题在于 token、时间和一致性方面的成本,以及这种成本在企业规模下是否可持续。
三个关键绩效指标:
- Token 成本:单个查询消耗多少 token?在企业规模下,这决定了代理部署的经济性。
- 准确性:代理是否返回正确且可重复的答案?每个评估集都包含人工标注的问题和期望答案,由 LLM 评判(claude-sonnet-4-6)按 0-1 评分。
- 延迟:查询端到端耗时多少?对于嵌入实时工作流的代理,响应时间至关重要。
以下是三个早期客户案例的详细结果。
案例一:Melange 的标准必要专利搜索 Melange Technologies 运行着一个自主的大规模现有技术搜索引擎,服务于专利无效和诉讼领域的律师事务所。他们的核心产品是一个代理搜索系统,从约 1.4 亿份专利文档中筛选出最相关的十几份,并提供法律分析初稿。Melange 的下一步扩展方向是标准必要专利(SEP)。SEP 是实施行业标准所必需的专利,例如 5G 技术标准。确定一项专利是否真正必要通常昂贵且耗时,需要人类专家逐行比较专利权利要求与标准文档。此外,标准文档本身可以作为现有技术,可能使已公开的技术专利无效。
仅 3GPP 技术标准的第一版就有约 1,800 份文档,共 2.3 GB。试点评估了 5G NR 标准的一个聚焦子集(29 份规范,约 31 MB)。语料库来自 3GPP Release 18,评估集包含 30 个 SEP 候选问题,每个问题将专利式权利要求与标准语料库进行比较,判定是否必要。答案分为五类,并引用具体规范、条款和信息元素。
结果对比: | KPI | Agentic RAG | Nexus | 变化 | | --- | --- | --- | --- | | 准确性 | 52.7% | 66% | 提高 25% | | 延迟(平均) | 187秒 | 44秒 | 降低 77% | | Token 成本(平均) | 201k tokens | 5.9k tokens | 降低 97% | Agentic RAG 在该语料库上每个问题平均需要约 20 次检索步骤,因为索引不了解标准的结构。Nexus 在查询前将标准组织为可寻址的需求片段,直接检索到正确的条款,token 消耗从 201K 降至 5.9K。业务影响:97% 的 token 成本降低使之前成本高昂的自主专利搜索在经济上可行;不到一分钟的延迟符合诉讼时间线;准确性提高直接减少了律师审查时间。
Melange 的 CEO Joshua Beck 表示:“这些早期结果令人兴奋:在我们领域最困难的问题上,token 成本降低 34 倍,查询在不到一分钟内解决,表明我们走在正确的方向上。为 Pinecone 的 AI 基础设施添加一个专门构建的知识引擎已经显示出真正的业务影响。”
案例二:M&A 尽职调查 该客户是一家大型金融科技公司,服务于资产管理公司、对冲基金和私募股权公司。其客户处理大量文档,从中提取精确答案直接影响交易结果和监管风险。评估场景是 M&A 尽职调查,一个典型的中期收购数据室包含数百份文档,涵盖 10 多个类别:经审计的财务报表、资本化表、客户合同、知识产权文件、人力资源记录、房地产租赁、税务计划、法律治理文档等。问题通常跨文档,需要同时推理所有信息。
数据集是一个完整的合成 M&A 数据室,代表一家 ARR 为 4200 万美元的企业 SaaS 公司,包含 90 份文档,涵盖 10 个类别文件夹,文件格式包括 PDF、Excel 和 Markdown。评估集包含 30 个多跳 M&A 尽职调查问题,需要跨文档推理。
结果对比: | KPI | Agentic RAG | Nexus | 变化 | | --- | --- | --- | --- | | 准确性 | 57% | 65% | 提高 14% | | 延迟(平均) | 61秒 | 32秒 | 降低 48% | | Token 成本(平均) | 66k tokens | 5k tokens | 降低 92% | Nexus 在每个问题上只进行一次检索,而 Agentic RAG 需要约 10 次迭代步骤。Nexus 在查询前从数据室中派生出映射跨文档关系的结构化知识。业务影响:需要分析师数小时合成的工作流现在数秒完成。92% 的 token 成本降低和 48% 的延迟改善使 AI 在整个交易管道中的经济性发生根本变化。更高的准确性降低了遗漏负债或误读财务结构的风险。
案例三:基于 Gong 通话转录的收入分析 一家领先的 SMS 营销和销售平台为电子商务品牌提供销售和客户成功服务。其销售和 CS 团队每周进行大量客户通话,包括定价、入职、续约和竞争性交易,这些通话都被 Gong 捕获。关键在于,这些转录中蕴含的洞察在规模上难以获取。诸如“哪个竞争对手在通话中被提及最多?”或“列出几个 RCS 成为主要讨论主题的客户”之类的问题需要跨数十个通话综合模式。逐个搜索转录过于缓慢和昂贵。
数据集是一周内真实的 Gong 通话导出,包含 217 份结构化 JSON 转录,涵盖销售、CS 和定价对话,并嵌入了公司特定的跟踪数据(消息率、列表增长、流失指标、竞争对手提及、扩展信号)。评估集包含 40 个收入分析问题,需要跨通话合成、趋势识别和模式识别。
结果对比: | KPI | Agentic RAG | Nexus | 变化 | | --- | --- | --- | --- | | 准确性 | 36% | 70% | 提高 94% | | 延迟(平均) | 28秒 | 23秒 | 降低 18% | | Token 成本(平均) | 27K tokens | 4K tokens | 降低 85% | 准确性提升是三个案例中最大的,反映了 Agentic RAG 与聚合合成工作负载之间的根本不匹配。Agentic 循环一次遍历一个文档,无法同时查看整个语料库。Nexus 派生了通话数据的结构化表示,使跨通话模式直接可寻址。接近两倍的准确性提升是语料库级别编译的实际体现。
业务影响:以前需要分析师数小时的收入分析查询现在在 23 秒内完成,使销售团队能够实时获取竞争情报和客户趋势。
这些案例表明,Pinecone Nexus 通过预先编译知识,显著提升了企业 AI 应用的性能和经济性。