本週AI動態:Claude Fable 5、克隆浪潮以及優步的AI現實檢驗
本週,egghead.io聯合創始人John Lindquist與CS Dojo創始人YK Sugi討論了Claude Fable 5的爭議性發布、美國政府指令導致模型下架,以及企業AI支出失控的問題。他們還探討了“克隆浪潮”現象,以及如何通過“原料優於推理”的框架高效構建AI應用。優步因AI預算超支而設置每人每月1500美元的上限,這凸顯了代理循環效率低下的問題。
本週,egghead.io聯合創始人John Lindquist與CS Dojo創始人兼Eventual開發者體驗經理YK Sugi一起,討論了最新的AI新聞。首先關注的是備受爭議的Claude Fable 5發佈。他們還探討了重塑科技行業的財務變化,包括與代理編碼循環相關的成本上升。接着,John概述了他在代理時代構建應用時不需每次從頭開始的框架。
Claude Fable 5於6月9日發佈,但在6月12日被從所有客户中撤下,原因是美國政府發出指令,要求Anthropic限制國內外外國國民的訪問權限。據報道,亞馬遜研究人員發現了一個安全漏洞,Anthropic拒絕修補或重新部署模型,隨後指令下達。Anthropic高級員工隨後前往華盛頓與白宮官員會面。關於實際發生的情況存在未解爭議。Anthropic的立場是,報告的問題是一個先前已識別的窄範圍越獄,普遍存在於公開模型中,並非嚴重安全威脅。一位獨立研究人員審查報告後稱其為防禦性提示,揭示了已知漏洞,並認為反應過度。雙方均未公佈技術或提示,因此無法獨立評估該説法。但正如John所説,“這開創了一個非常奇怪的先例,隨着模型的發佈,政府可以介入並控制私營公司對其模型能做什麼和不能做什麼。”
另一個新先例:Fable 5並非基於Opus或Sonnet架構構建,這意味着與之前的Anthropic模型或同代產品的比較意義不大。但初步印象是積極的,包括YK和John在內,Fable 5迅速在Arena排行榜的文本、代理和Web開發代碼類別中登頂。然而,該模型還有一個有意的限制:對於與AI和機器學習訓練相關的問題,它被設計為表現不佳(未向用户説明),顯然是為了防止競爭對手利用它改進自己的模型。在商業模型中有意抑制能力且不披露,是一種不同於安全護欄的產品決策。隨着競爭加劇,這種方法是否會變得更常見還是一個開放問題。
當循環未準備好時,令牌燃燒迅速。上週,SpaceX進行了歷史上最大的IPO。該公司隨後以600億美元的全股票交易完成了對Cursor的收購。OpenAI和Anthropic也已提交上市申請,谷歌通過股權和100年期債券籌集了約1600億美元。這些資本中有很大一部分流向了AI編碼基礎設施。
YK還提到了另一個不太慶祝的財務故事:優步在4月就耗盡了其整個2026年AI工具預算,主要用在Claude Code和Cursor上,優步首席運營官Andrew Macdonald承認他們無法將這筆支出與可衡量的有用客户功能增加聯繫起來。優步隨後設置了每人每月1500美元的上限。
John指出,項目低效利用代理循環是浪費令牌消耗的一個可能原因。大多數針對現有代碼庫部署代理的開發人員尚未構建代理高效工作所需的工具,因此代理在死衚衕工作中燃燒令牌,重複上下文,或生成需要大量調試的代碼。他解釋道:“如果你拿一個遺留代碼庫,然後在其中投入帶循環的代理,你還沒有建立一個合適的代理環境。令牌燃燒得非常快,因為代理沒有工具可以工作。”
開發者社區的討論到目前為止幾乎完全集中在代理能生成什麼上。但隨着更多組織從實驗轉向生產規模部署,將日誌記錄、驗證和正確的錯誤界面構建到代理工具中,將決定令牌消耗是否能轉化為實際輸出。否則,我們很可能會看到更多公司重蹈優步的覆轍。
對於大多數開發者工作流而言,“買還是建”現在傾向於“建”,這是甚至一兩年以前所沒有的。正如John所説,“現在構建應用和工作流非常容易,因為有太多出色的生產應用、手機應用、桌面應用、軟件即服務,它們很容易被複制和克隆。”他用“克隆浪潮”來描述不斷擴大的開源等價物集合,這些等價物可以克隆、分叉或替換,並滿足你99%的使用場景。
驅動克隆浪潮的原則是“原料優於推理”。如果你讓代理從頭構建一個功能,它會在沒有外部參考的情況下推理出一個解決方案。如果你給它一個現有的開源實現作為起點,它可以更快、更可靠地改編、翻譯和集成該代碼。原料方法還有助於解決AI生成代碼中43%需要生產調試的問題。
GitHub CLI在這個工作流中扮演着核心角色。John解釋説,因為代理原生理解GitHub CLI,你可以給代理一個搜索任務,讓它找到自己不會生成的實現。語言不匹配不是障礙,因為代理在語言和庫之間翻譯得很好。而像Cognition的DeepWiki這樣的工具允許代理在克隆或分叉之前探索和理解倉庫的結構,因此評估步驟不需要本地設置。
該框架還擴展到你如何構建那20%無法作為原料使用的部分。這是你用例特有的部分;John將其描述為“你在此基礎上構建的那一點額外內容,使其成為為你自己或用户定製的產品和項目。”John更大的觀點是,你為自己構建的工具也應該能被你的代理使用。暴露端點和日誌記錄。讓代理能夠讀取狀態和錯誤。一個能夠控制工具但不能調試工具的代理最終會以難以診斷的方式停止。
John通過cmux演示了代理原生工作區的實際樣子。cmux是一個終端多路複用器,專門為代理工作流設計:它暴露了一個代理可以直接控制的CLI,因此你可以打開一個終端窗格,讓該窗格生成另一個,並且兩者可以互相讀寫。實際上,這意味着你可以在一個窗格中運行Claude Code,在另一箇中運行Codex,在第三個窗格中讀取兩者的輸出,每個代理都能觀察其他代理的狀態。
代理需要的不僅僅是運行命令的能力。它們需要能夠讀取日誌、檢查錯誤並在採取下一步之前確認狀態。暴露這些界面的工作區為代理提供了反饋循環。這一原則適用於公司內的工具。將內部工具視為代理可訪問基礎設施的組織正在構建可以產生複利的東西。而那些將代理視為黑盒代碼生成器的組織則是在積累技術債務,直到後來才顯現問題。
接下來,SpaceX收購Cursor將編碼代理競賽變成了比IDE之爭更大的事情。Cursor可能正在將自己定位為代理時代的新GitHub,其中代理編寫、審查、測試、修復和管理代碼。與此同時,Salesforce以36億美元收購Fin顯示了企業軟件中的相同模式:買家想要解決實際支持、銷售和運營問題的打包工作流,而不是抽象的“代理”。
下週,主持人Ksenia Se將從誰控制AI工作循環的角度審視這些故事及更多內容。加入我們,瞭解為什麼AI的下一階段將關於誰控制基礎設施、經濟和信任層。我們的劇集免費開放至6月底,如需現場參與請註冊。我們將繼續每週五在Radar上發佈要點,並在YouTube、Spotify、Apple或其他播客平台分享完整劇集。