2026-06-09站内改写2 分鐘閱讀更新: 2026-06-09

哈佛與Perplexity新研究：AI智慧體每次自主工作26分鐘，而搜尋僅33秒

一項來自哈佛大學和Perplexity的最新研究透過匹配會話對比了自主智慧體與搜尋助手，發現智慧體在自主性、時間和成本方面均有巨大提升，並擴充套件了使用者嘗試的工作範圍。

來源MarkTechPost作者: Asif Razzaq

哈佛大學與Perplexity聯合釋出的一項新研究，基於生產環境中的真實資料，提供了AI智慧體如何改變知識工作的實地證據。該研究對比了Perplexity的兩款產品：Search（對話式搜尋引擎）和Computer（端到端任務規劃與執行智慧體）。同一使用者同時使用這兩款產品，因此研究團隊能夠在任務大致恆定的條件下進行天然對比。

研究覆蓋了2026年2月27日至5月27日的90天視窗，Computer在視窗開啟前兩天剛剛上線。核心方法是在兩款產品中匹配近似的查詢對。研究團隊找到了10,000對餘弦相似度超過0.99的會話對，每對本質上是用兩種方式完成同一任務。Computer會話被嚴格限定為呼叫了執行工具（如程式碼執行、瀏覽器操作、檔案寫入和聯結器呼叫）的會話，確保每段Computer會話都進行了真正的自主工作。

在90天視窗內，Computer的採用率持續上升，累積查詢量達到首周的84倍。匹配分析發現，使用Computer也使日常Search查詢量每天增加1.05個，表明兩者是互補而非替代關係。

研究基於一個簡單的任務模型：每項任務有步驟數，較長的任務具有略高的價值。智慧體改變了成本結構：它們為每項任務收取更高的固定成本（用於委派和審查），但每個步驟的邊際成本更低（由系統執行）。這產生了盈虧平衡步驟數：低於該數時，對話模式更便宜；高於時，智慧體模式勝出。簡短查詢仍手動進行，長流程則交給智慧體。

在自主性方面，Computer每次會話執行26分鐘的機器工作，而Search僅為33秒，差距達48倍。中位數也呈現同樣模式：9分鐘對14秒。不同領域差距不同，本地任務達75倍，科學類僅26倍，因為簡單答案通常已足夠。自主性提高並未降低質量：研究團隊透過使用者後續操作評估不滿意程度，Computer的有意義不滿意率為1.3%，而Search為2.9%，降低了55%。後續對話輪次在Computer上更偏向審查和擴充套件，但變化不大。聯結器呼叫更顯著，Computer有7.9%的會話至少呼叫一個聯結器，而Search為1.8%。

效率方面，研究估計了Search加人類的反事實。單獨使用Search的人類需要269分鐘完成匹配任務，而Computer加人類僅需36分鐘。總體時間減少87%，成本減少94%。成本節省超過時間節省，因為領域薪資放大了效果。Computer的模型成本為每任務4-10美元，Search約為0.05美元。邊際資料支援該框架：Computer加人類每步驟成本0.16美元，Search加人類為2.05美元。匹配的Computer會話提示更長（中位數652字元對448），支援智慧體固定成本更高的假設。盈虧平衡分析表明，專業人士必須在20分鐘內完成所有手動步驟，才能與Computer匹敵。研究團隊還透過獨立LLM估計和使用者訪談進行了交叉驗證，LLM方法發現84%的時間和93%的成本節省，受訪者報告速度提升5至300倍。

研究範圍擴充套件了以往工作：自主性不僅加快了任務速度，還改變了使用者嘗試的任務型別。橫向看，Computer查詢更跨職業，跨職業佔比平均59%，而Search為50%。管理與創業領域差距最大，達19個百分點。縱向看，Computer查詢要求更高：在布盧姆修訂分類法中，76%的查詢需要高階認知，Search為55%；創造級工作在Computer中佔50%，Search僅26%。Computer查詢還涉及更多知識領域：每個查詢平均觸及2.40個O*NET知識領域，而Search為1.74；需要三個及以上領域的可能性是Search的近三倍。隨著O*NET層次細化，可組合性更強：在任務陳述級別，Computer比Search多涉及60%的活動，約23%的Computer查詢觸及了同一使用者從未向Search傳送過的任務陳述。

研究的主要價值在於：它揭示了AI智慧體不僅提升效率，更擴充套件了知識工作者能夠處理的任務範圍，鼓勵使用者挑戰更復雜、跨領域的工作。對於工程師而言，意味著需要根據步驟數選擇工具：短查詢走對話路徑，長工作流交給智慧體。