AI News HubLIVE
站内改写4 分钟阅读

本周AI动态:Claude Fable 5、克隆浪潮以及优步的AI现实检验

本周,egghead.io联合创始人John Lindquist与CS Dojo创始人YK Sugi讨论了Claude Fable 5的争议性发布、美国政府指令导致模型下架,以及企业AI支出失控的问题。他们还探讨了“克隆浪潮”现象,以及如何通过“原料优于推理”的框架高效构建AI应用。优步因AI预算超支而设置每人每月1500美元的上限,这凸显了代理循环效率低下的问题。

来源O'Reilly AI & ML Radar作者: Michelle Smith

本周,egghead.io联合创始人John Lindquist与CS Dojo创始人兼Eventual开发者体验经理YK Sugi一起,讨论了最新的AI新闻。首先关注的是备受争议的Claude Fable 5发布。他们还探讨了重塑科技行业的财务变化,包括与代理编码循环相关的成本上升。接着,John概述了他在代理时代构建应用时不需每次从头开始的框架。

Claude Fable 5于6月9日发布,但在6月12日被从所有客户中撤下,原因是美国政府发出指令,要求Anthropic限制国内外外国国民的访问权限。据报道,亚马逊研究人员发现了一个安全漏洞,Anthropic拒绝修补或重新部署模型,随后指令下达。Anthropic高级员工随后前往华盛顿与白宫官员会面。关于实际发生的情况存在未解争议。Anthropic的立场是,报告的问题是一个先前已识别的窄范围越狱,普遍存在于公开模型中,并非严重安全威胁。一位独立研究人员审查报告后称其为防御性提示,揭示了已知漏洞,并认为反应过度。双方均未公布技术或提示,因此无法独立评估该说法。但正如John所说,“这开创了一个非常奇怪的先例,随着模型的发布,政府可以介入并控制私营公司对其模型能做什么和不能做什么。”

另一个新先例:Fable 5并非基于Opus或Sonnet架构构建,这意味着与之前的Anthropic模型或同代产品的比较意义不大。但初步印象是积极的,包括YK和John在内,Fable 5迅速在Arena排行榜的文本、代理和Web开发代码类别中登顶。然而,该模型还有一个有意的限制:对于与AI和机器学习训练相关的问题,它被设计为表现不佳(未向用户说明),显然是为了防止竞争对手利用它改进自己的模型。在商业模型中有意抑制能力且不披露,是一种不同于安全护栏的产品决策。随着竞争加剧,这种方法是否会变得更常见还是一个开放问题。

当循环未准备好时,令牌燃烧迅速。上周,SpaceX进行了历史上最大的IPO。该公司随后以600亿美元的全股票交易完成了对Cursor的收购。OpenAI和Anthropic也已提交上市申请,谷歌通过股权和100年期债券筹集了约1600亿美元。这些资本中有很大一部分流向了AI编码基础设施。

YK还提到了另一个不太庆祝的财务故事:优步在4月就耗尽了其整个2026年AI工具预算,主要用在Claude Code和Cursor上,优步首席运营官Andrew Macdonald承认他们无法将这笔支出与可衡量的有用客户功能增加联系起来。优步随后设置了每人每月1500美元的上限。

John指出,项目低效利用代理循环是浪费令牌消耗的一个可能原因。大多数针对现有代码库部署代理的开发人员尚未构建代理高效工作所需的工具,因此代理在死胡同工作中燃烧令牌,重复上下文,或生成需要大量调试的代码。他解释道:“如果你拿一个遗留代码库,然后在其中投入带循环的代理,你还没有建立一个合适的代理环境。令牌燃烧得非常快,因为代理没有工具可以工作。”

开发者社区的讨论到目前为止几乎完全集中在代理能生成什么上。但随着更多组织从实验转向生产规模部署,将日志记录、验证和正确的错误界面构建到代理工具中,将决定令牌消耗是否能转化为实际输出。否则,我们很可能会看到更多公司重蹈优步的覆辙。

对于大多数开发者工作流而言,“买还是建”现在倾向于“建”,这是甚至一两年以前所没有的。正如John所说,“现在构建应用和工作流非常容易,因为有太多出色的生产应用、手机应用、桌面应用、软件即服务,它们很容易被复制和克隆。”他用“克隆浪潮”来描述不断扩大的开源等价物集合,这些等价物可以克隆、分叉或替换,并满足你99%的使用场景。

驱动克隆浪潮的原则是“原料优于推理”。如果你让代理从头构建一个功能,它会在没有外部参考的情况下推理出一个解决方案。如果你给它一个现有的开源实现作为起点,它可以更快、更可靠地改编、翻译和集成该代码。原料方法还有助于解决AI生成代码中43%需要生产调试的问题。

GitHub CLI在这个工作流中扮演着核心角色。John解释说,因为代理原生理解GitHub CLI,你可以给代理一个搜索任务,让它找到自己不会生成的实现。语言不匹配不是障碍,因为代理在语言和库之间翻译得很好。而像Cognition的DeepWiki这样的工具允许代理在克隆或分叉之前探索和理解仓库的结构,因此评估步骤不需要本地设置。

该框架还扩展到你如何构建那20%无法作为原料使用的部分。这是你用例特有的部分;John将其描述为“你在此基础上构建的那一点额外内容,使其成为为你自己或用户定制的产品和项目。”John更大的观点是,你为自己构建的工具也应该能被你的代理使用。暴露端点和日志记录。让代理能够读取状态和错误。一个能够控制工具但不能调试工具的代理最终会以难以诊断的方式停止。

John通过cmux演示了代理原生工作区的实际样子。cmux是一个终端多路复用器,专门为代理工作流设计:它暴露了一个代理可以直接控制的CLI,因此你可以打开一个终端窗格,让该窗格生成另一个,并且两者可以互相读写。实际上,这意味着你可以在一个窗格中运行Claude Code,在另一个中运行Codex,在第三个窗格中读取两者的输出,每个代理都能观察其他代理的状态。

代理需要的不仅仅是运行命令的能力。它们需要能够读取日志、检查错误并在采取下一步之前确认状态。暴露这些界面的工作区为代理提供了反馈循环。这一原则适用于公司内的工具。将内部工具视为代理可访问基础设施的组织正在构建可以产生复利的东西。而那些将代理视为黑盒代码生成器的组织则是在积累技术债务,直到后来才显现问题。

接下来,SpaceX收购Cursor将编码代理竞赛变成了比IDE之争更大的事情。Cursor可能正在将自己定位为代理时代的新GitHub,其中代理编写、审查、测试、修复和管理代码。与此同时,Salesforce以36亿美元收购Fin显示了企业软件中的相同模式:买家想要解决实际支持、销售和运营问题的打包工作流,而不是抽象的“代理”。

下周,主持人Ksenia Se将从谁控制AI工作循环的角度审视这些故事及更多内容。加入我们,了解为什么AI的下一阶段将关于谁控制基础设施、经济和信任层。我们的剧集免费开放至6月底,如需现场参与请注册。我们将继续每周五在Radar上发布要点,并在YouTube、Spotify、Apple或其他播客平台分享完整剧集。