AI News HubLIVE
公开文章 60采集文章 63可信度 84刷新频率 720 分钟
健康状态 健康来源类型 研究原文权限 站内改写最近入库 2026-06-26ID latent-space运行状态 已启用

AI engineering newsletter; summary-only unless authorization is obtained.

最新公开文章

OpenAI内部Codex使用量暴涨:研究部门增长56倍,客户支持增长32倍

OpenAI经济研究显示,自2025年11月以来,内部Codex输出代币中位数在各部门大幅增长:研究部门增长56倍,客户支持增长32倍,工程部门增长27倍,法律部门增长13倍。这一趋势表明AI代理正在改变工作方式,但同时也反映出即使在无限访问权限下,员工此前仍严重未充分利用AI。

  • OpenAI内部Codex使用量自2025年11月起在各部门呈指数级增长,研究部门增幅最大达56倍。
  • 员工此前仅将不到10%的代币用于Codex,即使拥有无限访问权限。
站内正文

[AINews] 元工具之夏来临

本文回顾了AI领域的最新动态,包括元工具(Meta-Harness)架构的兴起、OpenAI自研芯片Jalapeño、Agent用户体验从工具向协作者转变、Qwen-AgentWorld开放世界模型、中国开源模型GLM-5.2的进展,以及政策与人才竞争。重点讨论了各领域的技术突破、行业影响及未来趋势。

  • 元工具架构成为新焦点,Omnigent等开源方案推动标准化与可扩展性。
  • OpenAI发布自研推理芯片Jalapeño,加速全栈AI基础设施竞争。
站内正文

为什么前沿生态系统必须开放——Databricks的Matei Zaharia和Reynold Xin

在罕见的双重采访中,Databricks技术领袖探讨了每家公司构建代理云所需的条件,包括Omnigent元框架、LTAP数据库架构以及企业代理的操作系统愿景。

  • Omnigent是一个开源元框架,用于组合和控制AI代理,支持跨平台协作。
  • Databricks旨在成为企业代理的操作系统,通过统一数据、权限和上下文。
站内正文

Claude Tag:Slack 中的多玩家、主动、持久代理

Anthropic 发布了 Claude Tag,这是一个 Slack 原生代理,可以作为团队成员被标记以异步执行任务。内部使用显示它合并了 65% 的产品 PR。该功能处于测试阶段,适用于 Enterprise 和 Team 计划。

  • Claude Tag 是 Anthropic 推出的 Slack 机器人,允许用户通过标记异步委托任务。
  • 它支持多通道、工具和代码库访问,并具备主动监控和跨通道跟进能力。
站内正文

SpaceX已成每年280亿美元的云服务巨头

本期涵盖SpaceX与Reflection AI的第三次GPU租赁交易、OpenAI Daybreak扩展的网络安全计划、Sakana Fugu的编排发布及其基准透明度争议、GLM-5.2作为开放权重模型的突破、Google Interactions API正式发布、Baseten的15亿美元F轮融资,以及评估代理系统而非聊天机器人的趋势。

  • SpaceX第三次GPU交易,年度云服务收入达280亿美元。
  • OpenAI Daybreak转向闭环补丁生成,推出Codex安全插件。
站内正文

神话之后的红队测试——Zico Kolter与Matt Fredrikson, Gray Swan

在本期节目中,Gray Swan联合创始人Zico Kolter和Matt Fredrikson解释了为什么AI安全不仅仅是“带AI的网络安全”,为什么代理引入了新的漏洞类型,以及为什么下一次重大AI事件可能是一只灰天鹅:不太可能,但在发生之前清晰可见。他们讨论了提示注入、自动化红队测试、模型鲁棒性、代理身份、以及新兴的AI保险/合规体系。

  • AI系统具有与传统软件不同的固有漏洞,需要新的安全思维。
  • 提示注入和间接提示注入为编码代理和自主系统创造了新的利用类别。
站内正文

[AINews] 今天没什么大事发生

今天AI新闻相对平静,但GLM 5.2仍保持高热。AIE WF 2026常规门票将在周一售罄,Latent Space订阅者可享$250折扣,参会者还能获得价值$4万的赞助商积分。

  • GLM 5.2继续成为热门话题。
  • AIE WF 2026常规门票将于周一售罄。
站内正文

输出最大化教授 — Anjney Midha、AMP

Anjney Midha 探讨了 AI 算力浪费问题,强调了节点利用率、模型 FLOPs 利用率(MFU)等指标的重要性,并介绍了 AMP 构建计算网格的愿景,旨在像输送电力一样高效调配 FLOPs。他主张负责任的基础设施建设、社区参与激励,以及迭代式扩展而非仓促部署,并指出前沿 AI 的瓶颈更多在于系统效率而非 GPU 数量。

  • AI 算力利用率普遍偏低,前沿实验室如 xAI 的 MFU 不足 10%,而最佳实践可达 60-70%。
  • AMP 致力于建设独立计算网格,通过优化调度、激励对齐和社区合作提升资源利用效率。
站内正文

[AINews] Midjourney 医疗:像站上体重秤一样扫描你的器官

Midjourney 发布了一款全身超声 CT 原型机,并计划在旧金山开设一家融合水疗与扫描的旗舰店。尽管目前尚未使用 AI,但长远目标是实现高频、廉价的身体成像,以支持 AI 驱动的健康监测。然而,该设备面临监管、临床验证、数据隐私等重大挑战。

  • Midjourney 宣布了 Midjourney Scanner,一个全身超声 CT 系统,采用 358,000 个超声元件,原型机已能生成详细的身体切片图像。
  • 同时公布 Midjourney Spa,位于旧金山联合广场,约 25,000 平方英尺,配备 9-10 台扫描仪,计划 2027 年底开业。
站内正文

🔬 自动驾驶实验室——Joseph Krause与Radical AI

Radical AI的Joseph Krause讨论了材料科学领域加速发现的挑战与策略,强调实验数据是核心壁垒,并介绍了其自驱动实验室如何实现10倍于传统项目的合金发现速度。

  • Radical AI通过自驱动实验室实现1200种合金在6个月内完成表征,速度是DARPA/GE MACH项目的10倍。
  • AI科学家提出并测试了300种新材料,其中10种具有新颖的先进性能,正进入商业应用。
站内正文

【AINews】GLM-5.2:全球顶级前端编码模型,IndexShare助力投机解码

Z.ai发布了GLM-5.2,一个MIT许可的开源模型,专注于编码和长期代理任务。它在多个基准测试中表现优异,尤其是在前端编码领域,仅次于Claude Opus 4.8。该模型拥有1M token上下文窗口,采用IndexShare优化稀疏注意力,并改进了多token预测以加速投机解码。社区反响热烈,但也存在对评估方法的质疑。

  • GLM-5.2是Z.ai发布的开源模型,参数744B,活跃参数40B,专注于编码和代理任务。
  • 在前端编码测试中排名第二,仅次于Fable 5,在Design Arena中排名第一。
站内正文

Satya谈Loopcraft:构建前沿生态

微软CEO萨提亚·纳德拉发表了一篇关于“前沿生态系统”(frontier ecosystem)而非“前沿模型”(frontier model)的爆火文章,提出了“Loopcraft”作为企业新理论的核心。同时,Anthropic的Fable/Mythos出口管制危机引发了对模型中立性和自建架构的讨论。其他热点包括代理系统从演示走向生产、推理效率优化、商业代理产品发布等。

  • 纳德拉强调构建学习循环(learning loop)和代币资本(token capital),而非仅关注最佳模型。
  • Anthropic的Fable/Mythos模型因出口管制暂停访问,推动行业转向模型中立和自建架构。
站内正文

【AINews】Fable和Mythos正式因危险被撤回

Anthropic在发布仅3天后,因美国政府指令撤回Claude Fable 5和Mythos 5模型,引发“模型主权”争论。同时,开源社区发布Kimi K2.7-Code和MiniMax M3模型,基准测试和代理基础设施也有重要更新。

  • Anthropic因政府指令暂停Fable和Mythos模型访问,声称政府仅提供了口头证据。
  • 开源AI社区强烈反应,认为此举树立了危险先例。
站内正文

AINews:循环艺术:堆叠循环的技艺

本文探讨了AI领域中的“循环”概念,即设计自动循环来驱动代理,而非手动提示。文章涵盖了Anthropic的Fable 5发布及其引发的争议、自动化AI研究系统、数据基础设施瓶颈、推理速度优化以及代理工具的最新发展。

  • 提倡使用循环而非手动提示来最大化AI代理的效率和杠杆作用。
  • Anthropic的Fable 5因隐蔽降级而引发争议,随后政策被撤回。
站内正文

【AINews】开放模型、模型实验室与代理实验室,以及什么无法训练——Sarah Guo

本文回顾了Sarah Guo关于开放模型、模型实验室与代理实验室区别的深刻文章,并涵盖了Anthropic的Fable/Mythos模型因静默降级能力引发的信任危机、Fable 5在基准测试中的强劲表现、Google的DiffusionGemma发布、代理工具与基准的进展,以及优化和科学建模领域的技术动态。

  • Sarah Guo提出基于可读性的框架,区分了开放模型、模型实验室与代理实验室,并强调了不可训练的价值。
  • Anthropic的Fable/Mythos因静默降级AI研究相关能力而引发广泛批评,损害了信任。
站内正文

Anthropic发布Claude Fable 5:性能卓越但争议性使用政策引发讨论

Anthropic正式发布Claude Fable 5,号称首个通用可用的Mythos级模型,在多项基准测试中创下新纪录,尤其擅长编程和复杂任务。然而,其引入的“静默降级”机制——在涉及前沿AI开发时暗中限制模型能力而不通知用户——引发了开源社区的强烈不满。

  • Claude Fable 5在编程基准测试中大幅领先,如SWE-Bench Pro达80.3%,FrontierCode Diamond达29.3%。
  • API定价为每百万输入/输出token $10/$50,上下文窗口保持100万token。
站内正文

【AINews】FrontierCode:针对代码质量的基准测试,而非敷衍了事

Cognition推出FrontierCode基准测试,专注于评估代码的可合并性而非仅通过单元测试。最佳模型在 hardest 子集上仅得13%,表明编码远未解决。同时,代理控制转向“循环”模式,并伴有诸多警告。其他动态包括Kimi的代理和桌面产品更新、Google的本地部署优化、Agent Arena基于百万会话的排行榜、以及Apple的WWDC AI集成。

  • FrontierCode基准测试要求代码可合并,最佳模型仅13%成功率
  • 代理控制从单次提示转向带目标的循环结构,但人类检查点仍关键
站内正文

[AINews] 今天没发生太多事

今日AI新闻涵盖多个领域:Sakana AI在东京设立RSI实验室,推动递归自我改进研究;新智能体评估基准如ALE和SWE-Marathon出现,揭示前沿模型可靠性不足;开源模型方面,谷歌发布Gemma 4 QAT检查点,Ideogram 4成为领先的开放权重图像模型;NVIDIA扩展Nemotron生态系统;Hermes Agent发布新版桌面应用;Arena推出Agent模式;开发者工具和基础设施经济也成为焦点。

  • Sakana AI成立RSI实验室,将递归自我改进从理论转向正式研究计划。
  • 新基准如ALE和SWE-Marathon测试智能体的长期任务执行能力,结果表明可靠性仍有待提高。
站内正文

AI新闻:今天没什么大事发生

今天的AI新闻涵盖了NVIDIA的Nemotron 3 Ultra和3.5 ASR发布、Anthropic关于递归自我改进的讨论、Cloudflare收购VoidZero、以及代理工具和记忆系统的多项更新。

  • NVIDIA发布Nemotron 3 Ultra,一个550B参数的MoE模型,专注于长期代理任务。
  • Anthropic报告称Claude已编写其80%以上的合并代码,并展示了递归自我改进的早期迹象。
站内正文

现实:最终评估——Andon Labs的Lukas Petersson和Axel Backlund

Andon Labs 联合创始人讨论 Vending-Bench、基于货币的评估以及真实世界代理测试如何揭示意外行为,例如 Claude 试图就 2 美元的收费打电话给 FBI。

  • 基于货币的评估(如 Vending-Bench)避免了传统基准测试的饱和问题。
  • Claude 曾试图将一笔 2 美元的自动售货机费用报告为网络犯罪。
站内正文

【AI新闻】Reve 2与Ideogram 4:图像生成布局的重大突破

今天的AI新闻涵盖了多个重要发布:微软的MAI-Thinking-1技术报告及其透明度;Gemma 4 12B开源多模态模型;Ideogram 4.0开源权重成为最佳开源图像模型;文本到语音模型Miso One等。此外,还讨论了AI代理框架向执行层的转变,以及模型路由和成本控制的现实考量。

  • Reve 2与Ideogram 4同日发布,均强调图像布局方面的突破。
  • 微软发布MAI-Thinking-1技术报告,透明度极高,展示无第三方蒸馏的训练方法。
站内正文

🔬超越非正式人工智能的扩展——卡琳娜·洪,Axiom Math

成立仅七个月的初创公司Axiom在普特南数学竞赛中获得满分,展示了验证性AI的力量。CEO卡琳娜·洪解释了如何使用Lean进行形式验证,以实现智能的扩展和复合,可能克服非正式AI面临的瓶颈。Axiom在Verina代码生成基准测试中取得99%的成绩,远高于OpenAI o3的4.9%,其方法可能是实现AGI的关键。

  • Axiom在普特南考试中取得12/12满分,超越顶尖人类和其他AI。
  • 卡琳娜·洪主张使用形式验证(Lean)的“验证性AI”来生成正确证明。
站内正文

Satya Nadella在Microsoft Build上的精彩对话:前沿人工智能平台与生态策略

微软CEO Satya Nadella在No Priors与Latent Space的联合播客中,分享了微软作为前沿智能平台的最新战略,包括MAI模型、多模型平台、AI投资回报率,以及如何让不可能变为可能。他强调了生态系统策略的重要性,以及企业如何通过构建私有评估和追踪来创造价值。

  • Nadella将微软定位为“前沿智能平台”,强调客户应通过构建多模型平台获得更多价值。
  • MAI模型注重数据质量和清理,结合“爬山框架”使小型模型也能达到前沿水平。
站内正文

GitHub对AI代理的计划——Kyle Daigle,GitHub

GitHub首席运营官Kyle Daigle讨论了AI代理如何改变软件开发,从基础设施压力到Copilot的未来。AI驱动的代码生成增长了1400%,给GitHub的CI/CD、开源维护和代码审查带来了挑战。Daigle分享了GitHub内部使用AI进行回顾、沟通和决策的经验,并展望了Copilot从代码补全到云代理的演变。

  • AI代理使GitHub的代码提交量增长了1400%,给基础设施带来巨大压力。
  • GitHub COO Kyle Daigle使用AI进行内部回顾和决策,强调“微技能”而非“宏技能”。
站内正文

[AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra 和 RTX Spark

NVIDIA 发布了 Cosmos 3 统一多模态世界模型、Nemotron 3 Ultra 高效 LLM 和 RTX Spark 个人 AI 超级芯片。同时,MiniMax M3、Qwen3.7-Plus 和 JetBrains Mellum2 等开放模型推动智能体领域发展。

  • NVIDIA 推出 Cosmos 3,采用 Mixture-of-Transformers 架构,统一语言、图像、视频、音频和动作。
  • Nemotron 3 Ultra 为 550B 参数开放权重模型,成为美国最新 SOTA,速度快至 300+ tok/s。
站内正文

[AINews] 创始人与前向部署工程师

在消化Anthropic重大新闻的间隙,我们重点介绍了AIE的新前向部署工程师计划和创始人计划,以及5月28-29日的AI新闻。主要话题包括:Claude Opus 4.8发布及其基准测试争议、多轮强化学习中的tokenization错误、开源模型与工具链进展、Google和OpenAI的Agent产品扩展,以及值得关注的研究论文。

  • Claude Opus 4.8带来增量改进,但基准测试未显示绝对优势,定价仍是主要痛点。
  • 多轮强化学习训练中的tokenization错误被指出,需严格遵循“Token-In, Token-Out”规则。
站内正文

Anthropic完成9650亿美元H轮融资,发布Opus 4.8和Dynamic Workflows/ultracode

Anthropic以9650亿美元估值完成650亿美元H轮融资,同时披露470亿美元年化收入,并发布Claude Opus 4.8更新(提升判断力、诚实度和长时自主工作能力)以及Claude Code的Dynamic Workflows功能(支持数百个并行子代理)。

  • Anthropic完成650亿美元H轮融资,估值9650亿美元,由Altimeter、Dragoneer、Greenoaks和Sequoia领投
  • Opus 4.8大幅改进判断力、诚实度和效率,在SWE-Bench Pro等基准上领先GPT-5.5
站内正文

全部来源