2026-06-09站内改写2 分鐘閱讀更新: 2026-06-09

哈佛與Perplexity新研究：AI智能體每次自主工作26分鐘，而搜索僅33秒

一項來自哈佛大學和Perplexity的最新研究通過匹配會話對比了自主智能體與搜索助手，發現智能體在自主性、時間和成本方面均有巨大提升，並擴展了用户嘗試的工作範圍。

來源MarkTechPost作者: Asif Razzaq

哈佛大學與Perplexity聯合發佈的一項新研究，基於生產環境中的真實數據，提供了AI智能體如何改變知識工作的實地證據。該研究對比了Perplexity的兩款產品：Search（對話式搜索引擎）和Computer（端到端任務規劃與執行智能體）。同一用户同時使用這兩款產品，因此研究團隊能夠在任務大致恆定的條件下進行天然對比。

研究覆蓋了2026年2月27日至5月27日的90天窗口，Computer在窗口開啓前兩天剛剛上線。核心方法是在兩款產品中匹配近似的查詢對。研究團隊找到了10,000對餘弦相似度超過0.99的會話對，每對本質上是用兩種方式完成同一任務。Computer會話被嚴格限定為調用了執行工具（如代碼執行、瀏覽器操作、文件寫入和連接器調用）的會話，確保每段Computer會話都進行了真正的自主工作。

在90天窗口內，Computer的採用率持續上升，累積查詢量達到首周的84倍。匹配分析發現，使用Computer也使日常Search查詢量每天增加1.05個，表明兩者是互補而非替代關係。

研究基於一個簡單的任務模型：每項任務有步驟數，較長的任務具有略高的價值。智能體改變了成本結構：它們為每項任務收取更高的固定成本（用於委派和審查），但每個步驟的邊際成本更低（由系統執行）。這產生了盈虧平衡步驟數：低於該數時，對話模式更便宜；高於時，智能體模式勝出。簡短查找仍手動進行，長流程則交給智能體。

在自主性方面，Computer每次會話執行26分鐘的機器工作，而Search僅為33秒，差距達48倍。中位數也呈現同樣模式：9分鐘對14秒。不同領域差距不同，本地任務達75倍，科學類僅26倍，因為簡單答案通常已足夠。自主性提高並未降低質量：研究團隊通過用户後續操作評估不滿意程度，Computer的有意義不滿意率為1.3%，而Search為2.9%，降低了55%。後續對話輪次在Computer上更偏向審查和擴展，但變化不大。連接器調用更顯著，Computer有7.9%的會話至少調用一個連接器，而Search為1.8%。

效率方面，研究估計了Search加人類的反事實。單獨使用Search的人類需要269分鐘完成匹配任務，而Computer加人類僅需36分鐘。總體時間減少87%，成本減少94%。成本節省超過時間節省，因為領域薪資放大了效果。Computer的模型成本為每任務4-10美元，Search約為0.05美元。邊際數據支持該框架：Computer加人類每步驟成本0.16美元，Search加人類為2.05美元。匹配的Computer會話提示更長（中位數652字符對448），支持智能體固定成本更高的假設。盈虧平衡分析表明，專業人士必須在20分鐘內完成所有手動步驟，才能與Computer匹敵。研究團隊還通過獨立LLM估計和用户訪談進行了交叉驗證，LLM方法發現84%的時間和93%的成本節省，受訪者報告速度提升5至300倍。

研究範圍擴展了以往工作：自主性不僅加快了任務速度，還改變了用户嘗試的任務類型。橫向看，Computer查詢更跨職業，跨職業佔比平均59%，而Search為50%。管理與創業領域差距最大，達19個百分點。縱向看，Computer查詢要求更高：在布盧姆修訂分類法中，76%的查詢需要高階認知，Search為55%；創造級工作在Computer中佔50%，Search僅26%。Computer查詢還涉及更多知識領域：每個查詢平均觸及2.40個O*NET知識領域，而Search為1.74；需要三個及以上領域的可能性是Search的近三倍。隨着O*NET層次細化，可組合性更強：在任務陳述級別，Computer比Search多涉及60%的活動，約23%的Computer查詢觸及了同一用户從未向Search發送過的任務陳述。

研究的主要價值在於：它揭示了AI智能體不僅提升效率，更擴展了知識工作者能夠處理的任務範圍，鼓勵用户挑戰更復雜、跨領域的工作。對於工程師而言，意味着需要根據步驟數選擇工具：短查詢走對話路徑，長工作流交給智能體。