AI News HubLIVE
站内改写4 分鐘閱讀

與Mythos合作是什麼感覺

作者早期體驗了首個面向公眾的神話級AI模型——Claude 5 Fable。該模型在多項複雜任務中顯著超越此前所有模型,能夠自主運行數小時完成多頁規格項目。作者感受到角色從“巫師”轉變為“贊助人”,AI在幕後自主決策,用户僅需下達指令並評判結果。文章通過等時地圖和數據分析軟件等案例,展示了Fable的強大能力及其帶來的黑箱問題。

來源One Useful Thing作者: Ethan Mollick

我有幸提前體驗了首個面向公眾的神話級AI模型——Claude 5 Fable。關於神話級的討論大多聚焦於軟件安全影響,但我對其進行了全方位測試(Fable的安全防護基本禁止其用於網絡安全)。我的結論是,它比我用過的任何模型都實現了真正的飛躍,更重要的是,它暗示我們與AI的關係正在發生劇烈變化。

首先,Fable有多強?在我進行的一系列實驗中,它幾乎在所有公開模型中都遙遙領先。它能夠處理多種問題,併產生令人驚訝的結果——它曾連續工作十幾個小時,執行多頁規格説明。我將簡要介紹幾個更復雜、更嚴肅的用例,但你能看到它在所有任務上的全面進步。不過,在文章中傳達這一點有個問題:許多最令人印象深刻的成果只對部分讀者有吸引力。例如,它僅憑一次提示和一次反饋,就生成了一篇我見過的最複雜的AI學術社會科學論文。它還創作了一首關於理髮的10頁史詩級押韻詩,每個單詞都以字母“s”開頭。

作為一個更易懂、更有趣的例子,我還讓它創建了一系列遊戲供你嘗試。在Claude Code中,所有遊戲只需一次初始提示——Fable需要從我的模糊提示中生成可運行的程序,再加上幾次輕微鼓勵(“讓它更好”)或反饋的額外提示。這些遊戲尤其令人印象深刻的是,Claude無法生成圖像,因此每件藝術品或3D對象都僅靠數學完成,未使用任何外部資源。你可以試試這些遊戲:一個關於拋硬幣的遊戲(提示語:“Balatro,但用於拋硬幣遊戲”)相當有趣;一個蛇遊戲,其中蛇有自我意識併發生瘋狂事件;或者一個關於深入地下探索的遊戲。

輸出令人印象深刻。但當我轉向更嚴肅的項目時,使用該工具的感覺往往介於愉悦和不安之間。愉悦是因為我只需提出要求,事情就發生了。不安也同樣是因為我只需提出要求,事情就發生了。

為了理解原因,有必要了解Fable完成工作的方式。為此,我想舉一個我在許多先前AI模型上測試過的例子:構建等時地圖。這種地圖顯示在給定時間內可到達的距離,第一張於1881年創建,顯示從倫敦出發的旅行時間。此前沒有模型能做出像樣的等時地圖,因為這需要研究數千個潛在行程距離和大量小判斷決策。我決定在Fable上嘗試,使用Claude Code並給出提示:我希望你構建一個經過充分研究且美觀的等時地圖,讓我可以選擇不同城市,並基於真實數據查看實時等時線。我希望設計獨特。你需要考慮機場(及往返機場的時間)、火車、步行、駕車。數據不需要實時,但應基於你的研究和數據真實可靠。你可以從幾個城市開始,但越通用越好,這應該是一個全新的項目。它隨後建議以原始地圖的風格進行。我同意,它便開始工作。

值得再看一下AI自行完成的數小時構建過程的記錄,因為你能看到一些不尋常的事情。首先,AI啓動了多個其他AI(我相信主要是較便宜的Claude Sonnet)來協助研究旅行時間,最終檢索了超過2200個特定航班、從TGV到新幹線的鐵路時刻表,以及來自多篇學術論文的各國公路速度。在這些智能體運行時,它開始編碼。然後它又啓動了更多智能體和測試來驗證其代碼,同時記錄進度。

結果是一個功能完整、複雜度令人印象深刻的地圖,看起來很像1881年的原始地圖,但這並不意味着它完美無缺。我注意到許多偏遠地點(如格陵蘭島)僅包含旅行時間的估計值,而非精確數字,因此我讓Fable修復這一問題,包括指示:實際獲取偏遠機場和地點的旅行時間。這一次,AI啓動了一個工作流程——對抗性智能體組進行研究和相互測試結果。它查明瞭太平洋皮特凱恩島的船舶航行頻率以及如何從渥太華到達格里斯峽灣。它在極短時間內消耗了大量令牌(稍後會詳細説明)。結果令人印象深刻。我又在感興趣的方向上推動了幾次(包括要求其他可視化方法等)。我建議你花幾分鐘點擊查看結果,並在圖表底部閲讀其方法和來源。

這項目可能只對熱愛旅行和地圖的人有用,但它表明AI解決了涉及研究、數學、視覺開發、品味、判斷和複雜編碼等多個領域的難題。而不安的部分是,我做的實在太少了。我給出了一個非常雄心勃勃的指令,AI便執行了。我提出了一些小反饋,AI就解決了問題。我的角色極為有限。

重要的是,不僅我所做的工作相對於模型而言很少,而且我對模型如何做事、為何選擇特定方法、甚至結果詳細程度的控制也很有限。AI決策過程的細節並未向我展示,而且過程太長,不值得追蹤。地圖要求AI對數百個小選擇做出判斷,它就這樣做了,而我既不瞭解這些選擇,也沒有機會參與。在很多方面,這堪稱奇蹟(我始終可以在最後要求修改),但另一方面,它使AI成為終極黑箱。

Fable最雄心勃勃的項目需要更多解釋。我做了大量研究,人類提供的答案雜亂無章,進行任何分析都需要正確分類這些答案:一個想法有多創新?人們為什麼喜歡這本書?為了解決這個問題,我們曾使用人類研究人員對一條信息做出判斷,並通過統計比較他們的答案與其他人的答案來確定數據是否可信。最近大量研究表明,AI或許能夠完成這項重要工作,但校準AI和人類判斷一直困難且昂貴。因此,我讓Fable解決這個問題,它首先生成了一複雜的19頁設計文檔,然後執行它。它工作了九個半小時。

結果是一個極其複雜的軟件,AI稱之為Concord,可以接收多個數據集,校準人類和AI的響應,然後對結果進行復雜數據分析。再次強調,它並不完美。作為專家,我能發現一些錯誤和遺漏(有些是我要求的設計引起的),並讓AI進行修正。但這個項目以及其他許多項目的交付範圍超越了我所見過的任何成果。在這個案例中,它是一個研究人員多年來需要但從未盈利的軟件。你現在可以直接使用或修改這裏的代碼。我確信它並不完美(我只花了一小時處理結果),但軟件工程師可以解決我未能快速發現的剩餘潛在漏洞(這也是未來我們可能需要更多程序員的原因之一,以幫助應對新用途的爆發)。

這種力量與奇怪和限制並存。限制之一是令牌消耗。Fable的價格是Opus的兩倍,其令牌消耗速度表明實際生產成本“很高”,不過它巧妙地委託給更便宜的模型可能會大幅降低實際價格。Fable的安全護欄在出現安全問題的細微跡象時也會觸發,默認回退到功能較弱的Claude 4.8 Opus,而且這種情況發生得太頻繁。鋸齒型前沿仍然存在。例如,AI仍然以同樣的怪異風格寫作(事實上,Fable生成的軟件帶有Claudisms的痕跡;其進度報告也是如此,所有那些“承擔重擔”和“贏得答案”)。但更深層的奇怪之處在於,我做得如此之少,且對其過程知之甚少。

去年,我稱之為與巫師合作:你念出咒語,事情就發生了。有了Fable,咒語變得如此強大,以至於我不再確定自己是巫師。我更像一個贊助人。我描述我想要什麼,我為此付費,我評判結果。施法發生在我無法觀看的地方,在數百個我永遠無法投票的小選擇中。工作已從過程轉向結果。我不再掌舵;我委託。

這種邊緣化可能是暫時的,只是界面尚未跟進的產物,我們將會獲得更好的窗口來了解這些模型在做什麼,並在過程中更好地引導它們。也可能相反:模型越強大,人類有意義地參與的空間就越小,黑箱就是力量的代價。我懷疑後者更可能是真正的方向。這並非明顯意義上的失控。我仍然可以引導Fable,它非常出色地遵循指令:指令越宏大,結果越好。但引導不再等同於做事。我向模型簡要説明,它啓動自己的智能體進行研究、撰寫和互相檢查工作,結果是成品。贊助人委託一位藝術家。Fable更接近一個完整的工作室,而我是客户,簽字確認最終作品,從未踏上工作現場。