AI News HubLIVE
站内改写2 分钟阅读

哈佛与Perplexity新研究:AI智能体每次自主工作26分钟,而搜索仅33秒

一项来自哈佛大学和Perplexity的最新研究通过匹配会话对比了自主智能体与搜索助手,发现智能体在自主性、时间和成本方面均有巨大提升,并扩展了用户尝试的工作范围。

来源MarkTechPost作者: Asif Razzaq

哈佛大学与Perplexity联合发布的一项新研究,基于生产环境中的真实数据,提供了AI智能体如何改变知识工作的实地证据。该研究对比了Perplexity的两款产品:Search(对话式搜索引擎)和Computer(端到端任务规划与执行智能体)。同一用户同时使用这两款产品,因此研究团队能够在任务大致恒定的条件下进行天然对比。

研究覆盖了2026年2月27日至5月27日的90天窗口,Computer在窗口开启前两天刚刚上线。核心方法是在两款产品中匹配近似的查询对。研究团队找到了10,000对余弦相似度超过0.99的会话对,每对本质上是用两种方式完成同一任务。Computer会话被严格限定为调用了执行工具(如代码执行、浏览器操作、文件写入和连接器调用)的会话,确保每段Computer会话都进行了真正的自主工作。

在90天窗口内,Computer的采用率持续上升,累积查询量达到首周的84倍。匹配分析发现,使用Computer也使日常Search查询量每天增加1.05个,表明两者是互补而非替代关系。

研究基于一个简单的任务模型:每项任务有步骤数,较长的任务具有略高的价值。智能体改变了成本结构:它们为每项任务收取更高的固定成本(用于委派和审查),但每个步骤的边际成本更低(由系统执行)。这产生了盈亏平衡步骤数:低于该数时,对话模式更便宜;高于时,智能体模式胜出。简短查找仍手动进行,长流程则交给智能体。

在自主性方面,Computer每次会话执行26分钟的机器工作,而Search仅为33秒,差距达48倍。中位数也呈现同样模式:9分钟对14秒。不同领域差距不同,本地任务达75倍,科学类仅26倍,因为简单答案通常已足够。自主性提高并未降低质量:研究团队通过用户后续操作评估不满意程度,Computer的有意义不满意率为1.3%,而Search为2.9%,降低了55%。后续对话轮次在Computer上更偏向审查和扩展,但变化不大。连接器调用更显著,Computer有7.9%的会话至少调用一个连接器,而Search为1.8%。

效率方面,研究估计了Search加人类的反事实。单独使用Search的人类需要269分钟完成匹配任务,而Computer加人类仅需36分钟。总体时间减少87%,成本减少94%。成本节省超过时间节省,因为领域薪资放大了效果。Computer的模型成本为每任务4-10美元,Search约为0.05美元。边际数据支持该框架:Computer加人类每步骤成本0.16美元,Search加人类为2.05美元。匹配的Computer会话提示更长(中位数652字符对448),支持智能体固定成本更高的假设。盈亏平衡分析表明,专业人士必须在20分钟内完成所有手动步骤,才能与Computer匹敌。研究团队还通过独立LLM估计和用户访谈进行了交叉验证,LLM方法发现84%的时间和93%的成本节省,受访者报告速度提升5至300倍。

研究范围扩展了以往工作:自主性不仅加快了任务速度,还改变了用户尝试的任务类型。横向看,Computer查询更跨职业,跨职业占比平均59%,而Search为50%。管理与创业领域差距最大,达19个百分点。纵向看,Computer查询要求更高:在布卢姆修订分类法中,76%的查询需要高阶认知,Search为55%;创造级工作在Computer中占50%,Search仅26%。Computer查询还涉及更多知识领域:每个查询平均触及2.40个O*NET知识领域,而Search为1.74;需要三个及以上领域的可能性是Search的近三倍。随着O*NET层次细化,可组合性更强:在任务陈述级别,Computer比Search多涉及60%的活动,约23%的Computer查询触及了同一用户从未向Search发送过的任务陈述。

研究的主要价值在于:它揭示了AI智能体不仅提升效率,更扩展了知识工作者能够处理的任务范围,鼓励用户挑战更复杂、跨领域的工作。对于工程师而言,意味着需要根据步骤数选择工具:短查询走对话路径,长工作流交给智能体。