聊天機器人的黃昏
文章指出AI能力正以超指數速度增長,前沿模型與開源模型均加速提升。AI使用方式正從聊天機器人轉向智能體,用户領域經驗比職業更重要。指數級增長帶來持續動盪,短期內不會穩定。
如果你感覺AI領域正在加速,那你的感覺很可能是對的。領先的美國AI實驗室發佈新模型的速度比以往任何時候都快(儘管政府幹預阻止了Claude Fable和GPT-5.6這兩個最強大模型的訪問)。
但不僅僅是發佈時間。證據表明,能力提升也在加速(儘管前沿依然不平坦,AI在許多方面仍然薄弱)。這一點在AI執行實際工作的能力上尤為明顯。有幾項評估試圖衡量AI能完成多少人類工作。其中最著名的兩個來自METR和英國政府官方AI安全研究所,它們估計AI單次提示所能完成的人類程序員工時。GDPval則通過專業評審比較各領域人類專家與AI的表現。所有這些指標都以超指數的速度增長。
另一個進行類似實驗的組織Epoch最近發現,Opus 4.7在自主工作14小時後,能夠構建一個需要2-17周人類工程工作的軟件包(消耗了251美元代幣)。再次説明,AI系統並非無所不能,運行成本也不總是低廉,但它們確實在以非常快的速度改進。在我自己的實驗中,我發現Fable能夠自主工作9小時,執行非常複雜的軟件項目,而這些項目通常需要一個團隊超過一週的時間才能完成。
到目前為止,我關注的是前沿模型,即那些“智能”最高的模型。它們由三家美國公司——Anthropic、OpenAI和Google製造(儘管Google已經有一段時間沒有發佈新模型了)。但還有第二組AI模型,通常落後前沿6-12個月,它們都來自中國。這些是開放權重模型,意味着任何人在發佈後都可以使用或修改(與專有的前沿模型相反)。這使得它們的運行成本相當低廉。它們也在攀爬指數級改進曲線,儘管落後於美國模型。您可以在我的AA-Briefcase測試結果圖中看到這一點,該測試模擬了一個複雜的多周諮詢項目,AI需要執行多種分析。開放權重模型位於自己的指數曲線上,落後於美國封閉模型。
但抽象圖表的作用有限,它們可能隱藏前沿的不平坦(以及開放權重模型雖然令人印象深刻,但並不總是像基準測試所顯示的那樣表現出色)。要獲得真正的洞察,您需要嘗試在不同用例中使用AI,並嚴格評估它們在您關注的領域中的表現。作為一個有趣的例子,我創建了一個測試,讓AI構建一個隨時間演變的港口交互模擬。您可以在[這裏](https://example.com)嘗試所有結果。我認為這提供了一個有趣的視角,展示模型在設計、風格方法甚至判斷力方面可以有多麼不同。隨着系統執行越來越長的任務,這些難以基準化的因素變得更加重要。
我們使用AI的方式正在改變
隨着AI能夠執行越來越長的任務,人們使用AI的方式正在改變。直到最近,使用AI的主要方式是作為“共智能”。您讓AI做一些事情,檢查結果,然後讓它執行工作的下一步。通過仔細的提示和人工關注,您可以引導AI完成複雜和長期的任務。
這種方法仍然常見且有用,但越來越多地,它不再是AI用於有價值工作的方式。長時間運行、智能且能夠自我糾正的AI系統不需要持續的人工干預,它們需要不同的工作方式(這也是我即將出版的書《共存》的主題,您可能想在這裏預訂)。與聊天機器人不同,智能體附帶了額外的機制:給AI提供工具和行動環境的“ harness”,以及為智能體構建的應用程序,如Claude Code或OpenAI的Codex。因此,AI模型已經增強的能力可以通過良好的 harness 或應用程序得到進一步提升。
因此,工作越來越多地是向智能體分配任務,而不是與聊天機器人協作。OpenAI與學術經濟學家的一項聯合研究顯示了這一點在其組織內部發生的速度。關鍵是,不僅僅是程序員在使用智能體。法律、人力資源及其他非技術崗位採用智能體的速率幾乎相同。OpenAI可能是工作領域其他部分未來變化的預警。
越來越多的OpenAI工作看起來像是管理AI。四分之一的OpenAI員工每週同時運行至少四個智能體。而且,隨着編程由AI在專門的 harness 和應用程序中完成,其他角色也開始成為某種意義上的程序員。而且他們很擅長。另一項針對Claude Code用户的研究發現,在實際使用Claude Code執行編程任務時,軟件工程師與其他職業的成功率相似。
真正重要的不是用户的職業,而是他們的專業知識。一個人擁有的領域經驗越多,他們在該領域使用Claude Code的成功率就越高。更有趣的是,他們從每次提示中從Claude獲得的有用輸出也越多。
我們正在從一個非專家使用聊天機器人填補空白的世界,轉向一個專家使用智能體完成工作的世界。而使用智能體的最佳方式是將自己視為管理者。
一個特定時刻
處於指數曲線上意味着在固定窗口內每一次變化都比前一次更大。如果您的組織在2025年冬天之前編寫了AI計劃,那麼它描述的系統只能工作幾個小時且錯誤率相當高。幾個月後,您可以通過一次提示獲得十六小時甚至更多的工作。這就是為什麼AI不斷讓人感覺它在飛躍,儘管它只是圖表上的一條曲線,我們持續將能力的穩定加倍體驗為一系列衝擊。我們非常不擅長從內部感受指數級變化,而我們目前正處於其中。
我認為這也比通常關於炒作的故事更好地解釋了圍繞AI的動盪。AI無法成為真正的網絡安全威脅,直到突然之間它可以,導致政府最高層突然且臨時改變政策。市場低估AI是否會威脅商業模型,直到突然之間它可以,導致股票大幅波動。這些波動被視為一個不成熟領域最終會穩定下來的跡象。我不認為它會很快穩定。這種不穩定性是當以人類速度(或更慢的委員會)運作的機構試圖跟蹤一條非常不人類的能力曲線時發生的事情。而且只要我們在某種指數曲線上,並且只要這種增長持續,差距只會擴大。