AI News HubLIVE
站内改写2 分鐘閱讀

哈佛與Perplexity新研究:AI智能體每次自主工作26分鐘,而搜索僅33秒

一項來自哈佛大學和Perplexity的最新研究通過匹配會話對比了自主智能體與搜索助手,發現智能體在自主性、時間和成本方面均有巨大提升,並擴展了用户嘗試的工作範圍。

來源MarkTechPost作者: Asif Razzaq

哈佛大學與Perplexity聯合發佈的一項新研究,基於生產環境中的真實數據,提供了AI智能體如何改變知識工作的實地證據。該研究對比了Perplexity的兩款產品:Search(對話式搜索引擎)和Computer(端到端任務規劃與執行智能體)。同一用户同時使用這兩款產品,因此研究團隊能夠在任務大致恆定的條件下進行天然對比。

研究覆蓋了2026年2月27日至5月27日的90天窗口,Computer在窗口開啓前兩天剛剛上線。核心方法是在兩款產品中匹配近似的查詢對。研究團隊找到了10,000對餘弦相似度超過0.99的會話對,每對本質上是用兩種方式完成同一任務。Computer會話被嚴格限定為調用了執行工具(如代碼執行、瀏覽器操作、文件寫入和連接器調用)的會話,確保每段Computer會話都進行了真正的自主工作。

在90天窗口內,Computer的採用率持續上升,累積查詢量達到首周的84倍。匹配分析發現,使用Computer也使日常Search查詢量每天增加1.05個,表明兩者是互補而非替代關係。

研究基於一個簡單的任務模型:每項任務有步驟數,較長的任務具有略高的價值。智能體改變了成本結構:它們為每項任務收取更高的固定成本(用於委派和審查),但每個步驟的邊際成本更低(由系統執行)。這產生了盈虧平衡步驟數:低於該數時,對話模式更便宜;高於時,智能體模式勝出。簡短查找仍手動進行,長流程則交給智能體。

在自主性方面,Computer每次會話執行26分鐘的機器工作,而Search僅為33秒,差距達48倍。中位數也呈現同樣模式:9分鐘對14秒。不同領域差距不同,本地任務達75倍,科學類僅26倍,因為簡單答案通常已足夠。自主性提高並未降低質量:研究團隊通過用户後續操作評估不滿意程度,Computer的有意義不滿意率為1.3%,而Search為2.9%,降低了55%。後續對話輪次在Computer上更偏向審查和擴展,但變化不大。連接器調用更顯著,Computer有7.9%的會話至少調用一個連接器,而Search為1.8%。

效率方面,研究估計了Search加人類的反事實。單獨使用Search的人類需要269分鐘完成匹配任務,而Computer加人類僅需36分鐘。總體時間減少87%,成本減少94%。成本節省超過時間節省,因為領域薪資放大了效果。Computer的模型成本為每任務4-10美元,Search約為0.05美元。邊際數據支持該框架:Computer加人類每步驟成本0.16美元,Search加人類為2.05美元。匹配的Computer會話提示更長(中位數652字符對448),支持智能體固定成本更高的假設。盈虧平衡分析表明,專業人士必須在20分鐘內完成所有手動步驟,才能與Computer匹敵。研究團隊還通過獨立LLM估計和用户訪談進行了交叉驗證,LLM方法發現84%的時間和93%的成本節省,受訪者報告速度提升5至300倍。

研究範圍擴展了以往工作:自主性不僅加快了任務速度,還改變了用户嘗試的任務類型。橫向看,Computer查詢更跨職業,跨職業佔比平均59%,而Search為50%。管理與創業領域差距最大,達19個百分點。縱向看,Computer查詢要求更高:在布盧姆修訂分類法中,76%的查詢需要高階認知,Search為55%;創造級工作在Computer中佔50%,Search僅26%。Computer查詢還涉及更多知識領域:每個查詢平均觸及2.40個O*NET知識領域,而Search為1.74;需要三個及以上領域的可能性是Search的近三倍。隨着O*NET層次細化,可組合性更強:在任務陳述級別,Computer比Search多涉及60%的活動,約23%的Computer查詢觸及了同一用户從未向Search發送過的任務陳述。

研究的主要價值在於:它揭示了AI智能體不僅提升效率,更擴展了知識工作者能夠處理的任務範圍,鼓勵用户挑戰更復雜、跨領域的工作。對於工程師而言,意味着需要根據步驟數選擇工具:短查詢走對話路徑,長工作流交給智能體。