2026-06-09站内改写2 分钟阅读更新: 2026-06-09

哈佛与Perplexity新研究：AI智能体每次自主工作26分钟，而搜索仅33秒

一项来自哈佛大学和Perplexity的最新研究通过匹配会话对比了自主智能体与搜索助手，发现智能体在自主性、时间和成本方面均有巨大提升，并扩展了用户尝试的工作范围。

来源MarkTechPost作者: Asif Razzaq

哈佛大学与Perplexity联合发布的一项新研究，基于生产环境中的真实数据，提供了AI智能体如何改变知识工作的实地证据。该研究对比了Perplexity的两款产品：Search（对话式搜索引擎）和Computer（端到端任务规划与执行智能体）。同一用户同时使用这两款产品，因此研究团队能够在任务大致恒定的条件下进行天然对比。

研究覆盖了2026年2月27日至5月27日的90天窗口，Computer在窗口开启前两天刚刚上线。核心方法是在两款产品中匹配近似的查询对。研究团队找到了10,000对余弦相似度超过0.99的会话对，每对本质上是用两种方式完成同一任务。Computer会话被严格限定为调用了执行工具（如代码执行、浏览器操作、文件写入和连接器调用）的会话，确保每段Computer会话都进行了真正的自主工作。

在90天窗口内，Computer的采用率持续上升，累积查询量达到首周的84倍。匹配分析发现，使用Computer也使日常Search查询量每天增加1.05个，表明两者是互补而非替代关系。

研究基于一个简单的任务模型：每项任务有步骤数，较长的任务具有略高的价值。智能体改变了成本结构：它们为每项任务收取更高的固定成本（用于委派和审查），但每个步骤的边际成本更低（由系统执行）。这产生了盈亏平衡步骤数：低于该数时，对话模式更便宜；高于时，智能体模式胜出。简短查找仍手动进行，长流程则交给智能体。

在自主性方面，Computer每次会话执行26分钟的机器工作，而Search仅为33秒，差距达48倍。中位数也呈现同样模式：9分钟对14秒。不同领域差距不同，本地任务达75倍，科学类仅26倍，因为简单答案通常已足够。自主性提高并未降低质量：研究团队通过用户后续操作评估不满意程度，Computer的有意义不满意率为1.3%，而Search为2.9%，降低了55%。后续对话轮次在Computer上更偏向审查和扩展，但变化不大。连接器调用更显著，Computer有7.9%的会话至少调用一个连接器，而Search为1.8%。

效率方面，研究估计了Search加人类的反事实。单独使用Search的人类需要269分钟完成匹配任务，而Computer加人类仅需36分钟。总体时间减少87%，成本减少94%。成本节省超过时间节省，因为领域薪资放大了效果。Computer的模型成本为每任务4-10美元，Search约为0.05美元。边际数据支持该框架：Computer加人类每步骤成本0.16美元，Search加人类为2.05美元。匹配的Computer会话提示更长（中位数652字符对448），支持智能体固定成本更高的假设。盈亏平衡分析表明，专业人士必须在20分钟内完成所有手动步骤，才能与Computer匹敌。研究团队还通过独立LLM估计和用户访谈进行了交叉验证，LLM方法发现84%的时间和93%的成本节省，受访者报告速度提升5至300倍。

研究范围扩展了以往工作：自主性不仅加快了任务速度，还改变了用户尝试的任务类型。横向看，Computer查询更跨职业，跨职业占比平均59%，而Search为50%。管理与创业领域差距最大，达19个百分点。纵向看，Computer查询要求更高：在布卢姆修订分类法中，76%的查询需要高阶认知，Search为55%；创造级工作在Computer中占50%，Search仅26%。Computer查询还涉及更多知识领域：每个查询平均触及2.40个O*NET知识领域，而Search为1.74；需要三个及以上领域的可能性是Search的近三倍。随着O*NET层次细化，可组合性更强：在任务陈述级别，Computer比Search多涉及60%的活动，约23%的Computer查询触及了同一用户从未向Search发送过的任务陈述。

研究的主要价值在于：它揭示了AI智能体不仅提升效率，更扩展了知识工作者能够处理的任务范围，鼓励用户挑战更复杂、跨领域的工作。对于工程师而言，意味着需要根据步骤数选择工具：短查询走对话路径，长工作流交给智能体。