AI News HubLIVE
站內改寫5 分鐘閱讀

事物的形態

文章探討了AI能力的指數級增長及其對工作、市場和政策的深遠影響。從“協同智能”到“管理AI”的轉變,AI代理(如Claude Code、Codex)已能獨立完成複雜任務。作者通過“水獺測試”和多項基準測試展示了AI的快速進步,並指出雖然AI能力驚人,但實際應用仍處於早期階段。文章還介紹了StrongDM的“軟件工廠”這一激進實驗,以及AI導致的“滾動式顛覆”——如金融市場波動、企業裁員和政策衝突。最後,作者警告遞歸自我改進(RSI)可能加速變化,但強調當前仍是塑造AI未來的關鍵窗口。

來源One Useful Thing作者: Ethan Mollick

2023年10月,我曾撰文探討“事物之影的形態”,推測人工智能在未來幾年可能演變成的樣子。如今,我認為我們能夠更清晰地看清“事物”本身,以及隨之而來的諸多後果。正如我在近期文章中討論的那樣,我們已進入AI發展的新階段。自ChatGPT問世以來,人機協作的形式表現為我所謂的“協同智能”——人類通過來回提示AI來獲得任務幫助。然而,從2025年底開始,得益於Claude Code、OpenAI的Codex以及OpenClaw等AI代理,我們進入了一個新時代。這些AI系統能夠接受你分配的任務——有時是數小時的人類工作——並在幾分鐘內返回合理且有用的結果。這是一個管理AI而非與之協作的時代。

這種運用AI的新方法源於AI能力的快速指數級提升。這意味着,若不理解AI日益增長的能力,就無法把握我們當前所處的位置以及可能的發展方向。

攀登指數曲線

指數級改進難以直觀呈現,因此我不想用圖表,而是從水獺開始。如果你關注過我的AI寫作,就會知道我的“水獺測試”——我要求各種AI圖像模型展示一幅“水獺在飛機上使用WiFi”的圖片。如下所示,從2022年(ChatGPT發佈之年)到2025年,進步迅猛且顯著。

那麼,自2025年4月那張圖像以來發生了什麼?隨着圖像近乎完美,視頻成為新的前沿領域,並同樣取得了指數級增長。為了證明這一點,我向TikTok母公司字節跳動開發的最先進(且尚未在美國發布)AI視頻模型輸入提示詞:一部關於水獺如何看待Ethan Mollick‘水獺測試’的紀錄片——該測試以AI生成水獺坐飛機圖像的能力來評判AI。這是首個結果——請務必開啓聲音:

除了一處發音錯誤外,這個結果幾乎完美,甚至水獺被賦予了擬人化的表情。當然,視頻模型很酷,但它們未必能説明實用代理型AI的能力。那麼,如果我們觀察AI能力的基準測試,是否也能看到同樣的指數曲線?

在當今最著名的AI評估——METR長任務圖中,我們確實看到了這一趨勢。該測試試圖衡量AI能自主且可靠地完成多少人類工作。它招致了一些批評,甚至METR本身也指出了潛在問題。但如果你不喜歡METR圖,你會發現大多數AI能力圖都呈現類似的曲線。

例如,我選取了四個難度各異、多樣化的AI測試,並在下圖中繪製了隨時間變化的進展。左上角是“谷歌級問答基準”的得分——這是一項知識測試,研究生使用谷歌在其專業領域外僅得34%,專業領域內約70%,而最先進的AI現在得分高達94%。再看GDPval,行業專家評估AI與經驗豐富的人類在複雜任務上的表現,最新AI在82%的情況下達到或超過頂尖人類水平。同樣的模式出現在“人類最後一次考試”——由大學教授編寫的極高難度問題集,需要相當的專業知識才能解答。甚至可以用AI解決謎題的能力來衡量(你可以試試這些謎題,很有趣!)。每個測試都顯示出類似的能力快速提升,且幾乎沒有放緩跡象,至少直到達到測試的最高可能分數。

拋開指數圖不談,必須認識到所有這些測試都有其自身缺陷,AI仍然“參差不齊”——能高水平完成某些任務,卻在其他任務上出錯。此外,儘管在測試中表現驚人,企業採用AI仍處於非常早期的階段,這意味着迄今為止,大多數組織的變化微乎其微。但“大多數組織”並非指所有組織。我們已經開始看到利用AI代理新能力的新型組織方式的端倪。

工作的徹底變革

幾周前,安全軟件公司StrongDM的一個三人團隊宣佈他們構建了一個“軟件工廠”——一種完全依賴AI代理來編寫、測試和交付生產軟件的工作方式,無需人工參與。該流程包含兩條(相當激進的)規則:“代碼不得由人類編寫”和“代碼不得由人類審查”。為支撐該工廠,每位人類工程師預計每天在AI令牌上花費相當於其工資的金額——至少1000美元。

工廠的基本理念是:將人類編寫的未來產品路線圖轉化為產品。編碼代理根據路線圖構建軟件,同時測試代理在模擬客户環境中試用軟件(測試代理按需構建該環境)。各代理組相互反饋,循環往復直到結果令AI滿意。然後人類審查成品,結果直接交付給客户,任何人都從未接觸甚至查看底層代碼。

顯然,有許多細節使這種方法奏效,StrongDM團隊已公開分享了大量細節。他們還邀請了一些精明的外部觀察者觀看工廠運作並發表評論,因此你可以閲讀Simon Willison和Dan Shapiro的記述,以更好地瞭解其方法的優缺點。然而,在許多方面,軟件工廠的具體細節不如這樣一個事實重要:這種關於工作方式的激進實驗如今不僅可能,而且很可能是必要的。AI已經足以改變組織的運作方式,而實驗才剛剛開始,即使模型仍在不斷改進。

滾動式顛覆

實用的代理、參差的指數級改進以及徹底實驗工作本質的能力,共同構成了一種滾動且不可預測的AI進展環境。隨着AI能力跨越門檻,它解鎖了激進的新用例,有時在一夜之間改變了人們對AI能力的看法。與此同時,實驗AI的組織將找到使其發揮作用的方法,從而導致突然宣佈新戰略或大規模轉變公司最看重哪些類型的員工。此外,隨着AI持續改進,更多政策制定者將對AI治理產生興趣,從而與AI公司產生衝突。

這並非猜測,因為我們在短短一週內就目睹了這一切。2月22日,一家名不見經傳的金融公司Citrini Research發佈了一個虛構場景,描述AI的採用可能如何到2028年摧毀一些老牌企業。文中許多元素顯然牽強,但卻觸動了華爾街的神經,導致主要股票市場價格波動。2月26日,金融服務公司Block宣佈裁員40%,暗示這是由於AI。很可能AI的作用被大大誇大了,AI只是被用作大規模裁員的遮羞布。然後,2月27日,五角大樓與AI公司Anthropic之間爆發了一場公開衝突,爭論誰應控制Claude如何被政府使用的規則。

從很多方面來看,這些案例都不像表面看起來那樣。Citrini報告是一個虛構場景,Block裁員與AI無關,關於戰爭中AI的衝突則涉及許多仍然不夠清晰複雜問題。但我認為那一週很好地展示了近未來將會是什麼樣子。關於AI能力的突然揭示導致市場快速反應。AI對就業的影響日益真實(儘管對其短期影響好壞存在大量爭論)。以及AI公司與全球政策制定之間日益糾纏。隨着風險升高,事情很可能感覺更加不穩定。

當然,也有可能事情會穩定下來。也許AI改進碰到天花板,組織逐漸吸收變化,滾動式顛覆隨着人們瞭解AI的能與不能而變得可控。歷史上充滿了本應一夜之間改變一切卻用了數十年才徹底重塑經濟的技術。

但我不會押注於此。

一個原因是AI公司正在相當明確地告訴我們接下來會發生什麼:遞歸自我改進(RSI)。這一理念是:AI系統越來越多地被用於構建更好的AI系統,形成反饋循環,可能加速我上面展示的曲線。在1月的達沃斯論壇上,Anthropic的Dario Amodei解釋説,如果你製造出擅長編程和AI研究的模型,就可以用它們構建下一代模型,從而加速循環。他指出,Anthropic內部的工程師現在幾乎不再自己編寫代碼。OpenAI在2月發佈最新的Codex模型時,該公司聲明這是“我們第一個對自己創建起到重要作用的模型”。Google DeepMind的Demis Hassabis在同一達沃斯小組討論中承認,關閉自我改進循環是所有主要實驗室正在積極努力的方向,儘管他也警告仍存在缺失的能力和真正的風險。

我們不知道這能走多遠。RSI作為理論概念已有數十年曆史,實驗室可能遇到瓶頸,無論是計算、數據還是AI研究本身的難度。我們也不知道基於LLM的AI是否會最終達到一個天花板,無法再進步,或者參差的前沿永遠不會變得平滑。我不認為我們知道任何確定的事情,但我認為我們已經過了遞歸自我改進是科幻小説的階段。相反,它是每家主要AI公司路線圖上的明確項目。如果循環真的閉合,我們一直觀察的指數曲線將變得更加陡峭,終點不確定。

因此,這就是我們今天所處的位置:2月那一週的不穩定性預示着當AI日益增長的能力開始同時與市場、就業和政府互動時會是怎樣一種感受。這種不確定感很可能只會進一步蔓延。但不確定性不等於無助。當一項技術如此強大且如此不穩定時,個人和組織此刻的選擇就顯得更為重要。我們現在可以看到事物的形態,但我們仍然可以影響事物本身,以及它對所有人的意義。我們顯然沒有關於AI在工作、學校或政府中如何使用的規則或榜樣。這是一個問題,但這也意味着每個現在找到良好AI使用方式的組織都在為其他所有人樹立先例。塑造事物的窗口可能不會持續太久,但它就在此時此地。