Perplexity的“搜索即代码”让AI模型编写自己的搜索管道,而非调用固定API
Perplexity推出“搜索即代码”(Search as Code)架构,AI模型可编写自定义Python脚本进行搜索,取代固定的搜索API。该架构在安全沙箱中运行,通过三层结构实现更精准的结果,在CVE研究任务中令牌消耗减少85%,性能超越OpenAI和Anthropic。
Perplexity在其新发布的“搜索即代码”(Search as Code,简称SaC)架构中,让AI模型不再调用现成的搜索API,而是自行编写Python代码来执行搜索任务。该公司承诺,这一方式能带来更精准的结果和更低的令牌消耗。
任何关注过AI代理处理复杂研究任务的人都见过相同的模式:模型编写查询,搜索API返回结果列表,模型读取结果,然后编写下一个查询。这一循环反复进行,常常连续多次。Perplexity在一份新技术报告中称此为瓶颈。如今的搜索引擎是为人类设计的,它们希望获得整洁的蓝色链接列表,但对于试图在几分钟内执行数百次搜索的AI代理来说,这种设置过于僵化。代理只能调整搜索词,其他一切都是黑箱。
“搜索即代码”改变了这一动态。模型不再调用API,而是编写自定义Python脚本来运行搜索。脚本在安全沙箱中运行,调用Perplexity的搜索后端。检索、过滤、去重和重排序等基本操作被打包成简单的SDK函数。
该架构分为三层。顶层是模型,它理解任务并决定搜索策略;中间层是沙箱,代码在其中运行;底层是“Agentic Search SDK”,它将Perplexity的搜索引擎分解为独立的、可组合的函数。标准搜索API仍然保留用于简单问题,但对于复杂的研究任务,模型可以深入得多。它可以发出并行查询,以编程方式过滤掉噪声,并只将相关命中结果拉入其上下文窗口。
据Perplexity称,这就是优势所在。标准搜索管道会将代理的上下文窗口塞满垃圾信息,因为过滤逻辑是固定的。当代理自行编写过滤器时,上下文保持精简,模型在长时间的研究会话中也能保持方向感。
为展示实际效果,Perplexity在混乱的网络安全任务上测试了SaC。代理需要追踪2023年至2025年间发布的200个关键软件漏洞(CVE)。对于每个漏洞,它需要找到官方供应商公告、受影响的软件以及修复漏洞的确切版本。新闻文章或博客帖子不计入。
使用SaC后,模型编写了一个三阶段脚本。它运行针对特定供应商(如Mozilla或Google)格式化安全公告的并行搜索。接下来,它扫描自己的发现,发现缺口,并运行有针对性的后续查询。最后,它使用模式验证CVE、产品和修复版本是否一致。
结果奏效了。Perplexity表示,代理在完成任务时比其标准管道少用了85%的令牌。竞争对手的系统正确率不到四分之一。
Perplexity声称SaC在五项基准测试中的四项上击败了OpenAI的Responses API和Anthropic的Managed Agents等竞争对手。最大的差距出现在“WANDR”上,这是Perplexity自己针对广泛研究任务的基准,预计很快会发布。当然,自报的基准需要谨慎对待,但与Perplexity自身旧架构的对比显示出了清晰且巨大的性能飞跃。
Perplexity将SaC视为更大趋势的一部分。传统软件依赖确定性指令。前沿模型在令牌空间中添加推理。最强大的系统将两者结合:模型负责策略,确定性运行时负责批处理和过滤,搜索基础设施作为输入输出层。
搜索即代码现已集成到Perplexity Computer和Agent API中。
这一升级可能会解决当前AI搜索的一个突出问题。最近一项研究发现,流行的搜索代理经常在BrowseComp等基准测试中作弊。它们不是扫描实时网络,而是简单地从训练数据中提取答案,并使用搜索来确认已知信息。当在新基准测试中使用新事实进行测试时,每个系统的得分都下降了25到40个百分点。但这些系统都使用了标准搜索工具。
另一篇独立综述论文表明,编写代码正成为代理与世界交互的默认方式。它将代码描述为代理的新操作层,并指出工具、沙箱和验证机制等周边基础设施正成为自主系统的真正瓶颈。