哈佛與Perplexity新研究:AI智慧體每次自主工作26分鐘,而搜尋僅33秒
一項來自哈佛大學和Perplexity的最新研究透過匹配會話對比了自主智慧體與搜尋助手,發現智慧體在自主性、時間和成本方面均有巨大提升,並擴充套件了使用者嘗試的工作範圍。
哈佛大學與Perplexity聯合釋出的一項新研究,基於生產環境中的真實資料,提供了AI智慧體如何改變知識工作的實地證據。該研究對比了Perplexity的兩款產品:Search(對話式搜尋引擎)和Computer(端到端任務規劃與執行智慧體)。同一使用者同時使用這兩款產品,因此研究團隊能夠在任務大致恆定的條件下進行天然對比。
研究覆蓋了2026年2月27日至5月27日的90天視窗,Computer在視窗開啟前兩天剛剛上線。核心方法是在兩款產品中匹配近似的查詢對。研究團隊找到了10,000對餘弦相似度超過0.99的會話對,每對本質上是用兩種方式完成同一任務。Computer會話被嚴格限定為呼叫了執行工具(如程式碼執行、瀏覽器操作、檔案寫入和聯結器呼叫)的會話,確保每段Computer會話都進行了真正的自主工作。
在90天視窗內,Computer的採用率持續上升,累積查詢量達到首周的84倍。匹配分析發現,使用Computer也使日常Search查詢量每天增加1.05個,表明兩者是互補而非替代關係。
研究基於一個簡單的任務模型:每項任務有步驟數,較長的任務具有略高的價值。智慧體改變了成本結構:它們為每項任務收取更高的固定成本(用於委派和審查),但每個步驟的邊際成本更低(由系統執行)。這產生了盈虧平衡步驟數:低於該數時,對話模式更便宜;高於時,智慧體模式勝出。簡短查詢仍手動進行,長流程則交給智慧體。
在自主性方面,Computer每次會話執行26分鐘的機器工作,而Search僅為33秒,差距達48倍。中位數也呈現同樣模式:9分鐘對14秒。不同領域差距不同,本地任務達75倍,科學類僅26倍,因為簡單答案通常已足夠。自主性提高並未降低質量:研究團隊透過使用者後續操作評估不滿意程度,Computer的有意義不滿意率為1.3%,而Search為2.9%,降低了55%。後續對話輪次在Computer上更偏向審查和擴充套件,但變化不大。聯結器呼叫更顯著,Computer有7.9%的會話至少呼叫一個聯結器,而Search為1.8%。
效率方面,研究估計了Search加人類的反事實。單獨使用Search的人類需要269分鐘完成匹配任務,而Computer加人類僅需36分鐘。總體時間減少87%,成本減少94%。成本節省超過時間節省,因為領域薪資放大了效果。Computer的模型成本為每任務4-10美元,Search約為0.05美元。邊際資料支援該框架:Computer加人類每步驟成本0.16美元,Search加人類為2.05美元。匹配的Computer會話提示更長(中位數652字元對448),支援智慧體固定成本更高的假設。盈虧平衡分析表明,專業人士必須在20分鐘內完成所有手動步驟,才能與Computer匹敵。研究團隊還透過獨立LLM估計和使用者訪談進行了交叉驗證,LLM方法發現84%的時間和93%的成本節省,受訪者報告速度提升5至300倍。
研究範圍擴充套件了以往工作:自主性不僅加快了任務速度,還改變了使用者嘗試的任務型別。橫向看,Computer查詢更跨職業,跨職業佔比平均59%,而Search為50%。管理與創業領域差距最大,達19個百分點。縱向看,Computer查詢要求更高:在布盧姆修訂分類法中,76%的查詢需要高階認知,Search為55%;創造級工作在Computer中佔50%,Search僅26%。Computer查詢還涉及更多知識領域:每個查詢平均觸及2.40個O*NET知識領域,而Search為1.74;需要三個及以上領域的可能性是Search的近三倍。隨著O*NET層次細化,可組合性更強:在任務陳述級別,Computer比Search多涉及60%的活動,約23%的Computer查詢觸及了同一使用者從未向Search傳送過的任務陳述。
研究的主要價值在於:它揭示了AI智慧體不僅提升效率,更擴充套件了知識工作者能夠處理的任務範圍,鼓勵使用者挑戰更復雜、跨領域的工作。對於工程師而言,意味著需要根據步驟數選擇工具:短查詢走對話路徑,長工作流交給智慧體。