AI News HubLIVE
公开文章 39采集文章 40可信度 82刷新频率 720 分钟
健康状态 健康来源类型 研究原文权限 站内改写最近入库 2026-06-26ID the-sequence运行状态 已启用

AI research and engineering newsletter; summary-only unless authorization is obtained.

最新公开文章

自驱动实验室:选择下一个实验的实验室

自驱动实验室通过将AI与自动化实验硬件结合,使系统能够根据实验结果自主决定下一步实验,区别于仅执行预设脚本的自动化。

  • 自驱动实验室的核心是AI与自动化硬件的结合,实现实验决策的自主化。
  • 与自动化不同,自驱动实验室会通过实验实时学习并调整实验方向。
站内正文

AI周报#883:Qwen进军机器人领域

阿里巴巴的Qwen模型家族推出机器人套件,旨在弥合感知与行动之间的鸿沟。三个新模型分别专注于导航、操作和世界建模,核心挑战在于将物理动作转化为可学习的token。

  • Qwen模型长期局限于软件环境,无法执行物理操作。
  • 阿里巴巴发布Qwen-Robot Suite,包含三个专用模型。
站内正文

序列知识#882:关于蒸馏技术的新系列

深入探讨现代AI中最重要的技术之一——蒸馏,以及它如何解决大规模模型带来的成本、部署和专业化问题。

  • 蒸馏技术使AI模型更高效、更易部署,是应对规模带来的挑战的关键。
  • 规模推动了AI进步,但也导致模型昂贵、缓慢、难以专业化。
站内正文

The Sequence Special #881:人工智能模型的足球世界杯

LayerLens 推出 Stratix 杯,这是一场顶级 AI 模型在模拟环境中作为智能体进行足球比赛,考验规划、适应和多智能体协调能力。

  • LayerLens 推出 Stratix 杯,这是一个 AI 模型的足球锦标赛。
  • 比赛测试智能体能力:赛前策略、实时比赛和半场调整。
站内正文

序列雷达 #880:上周AI要闻——600亿美元Cursor交易、谷歌人才流失、Midjourney的人体扫描仪

AI市场上一周出现了一系列意想不到的转折:SpaceX以600亿美元收购Cursor,Noam Shazeer和John Jumper分别离开谷歌加入OpenAI和Anthropic,Midjourney推出全身医用扫描仪。

  • 1. SpaceX以600亿美元股票收购Cursor,标志着AI工具已成为与火箭发射能力同等重要的战略基础设施。
  • 2. Noam Shazeer和John Jumper相继离开谷歌,凸显了AI前沿领域激烈的人才争夺战,顶尖研究者成为最稀缺的资源。
站内正文

序列AI本周第878期:谷歌DeepMind首次真正突破下一代令牌生成

谷歌DeepMind发布了DiffusionGemma,这是一种文本扩散模型,挑战了传统的Transformer架构。该模型不依赖从左到右逐令牌生成文本的方式,而是采用全新的生成机制。

  • DiffusionGemma是谷歌DeepMind发布的一种文本扩散模型。
  • 该模型挑战了传统的Transformer架构。
站内正文

序列知识 #878:超越Transformer:我们学到的

本文总结了关于Transformer替代方案的系列文章,涵盖四大类模型:递归/线性递归模型、状态空间模型、文本扩散模型和液态/连续时间模型。同时宣布将推出关于知识蒸馏的新系列。

  • 自注意力机制带来二次方复杂度,长序列计算和内存成本高昂。
  • 四种替代方向:递归模型(恒内存)、状态空间模型(线性缩放)、文本扩散(并行生成)、液态模型(连续时间动态)。
站内正文

《序列雷达》第877期:上周AI大事记——Anthropic发布模型,苹果借用技术,马斯克上市,贝佐斯建厂

上周AI领域发生四大重磅事件:Anthropic推出Claude Fable 5和Mythos 5,苹果发布Siri AI,SpaceX以史上最大IPO上市,贝佐斯的Prometheus融资120亿美元。这些事件标志着AI正从聊天窗口走向更广泛的物理世界。

  • Anthropic发布Claude Fable 5与Mythos 5,能力与访问权限分离
  • 苹果推出Siri AI,搭载1.2万亿参数Gemini模型,利用个人上下文优势
站内正文

序列观点:记录系统与行动系统

讨论代理型AI时代企业软件的新范式:从记录系统转向行动系统。

  • 传统企业软件以人为核心,记录状态。
  • 代理型AI将改变软件的作用,重点转向可靠地执行行动。
站内正文

本周AI序列 #875:为什么你的语言模型需要小憩

论文《语言模型需要睡眠》提出,大语言模型存在“顺行性遗忘症”,无法在训练后学习新知识,建议引入类似生物睡眠的机制来巩固记忆。

  • LLM在预训练后停止学习,成为静态模型。
  • 模型患有“顺行性遗忘症”,无法形成新的长期记忆。
站内正文

序列知识#874:Transformer还是不是?

Transformer架构目前是AI领域的参考架构,因其出色的扩展性而成为工业标准,但其注意力机制的计算成本高昂。文章探讨了Transformer是否会是最终架构,还是只是第一个真正可扩展的架构。

  • Transformer的强项是注意力机制,可处理多种数据类型。
  • 注意力机制计算成本高,随序列长度扩展性差。
站内正文

序列雷达#873:上周AI:足球、S-1和超级模型

一场新的AI足球锦标赛、主要模型发布、融资活动以及Anthropic的S-1文件。

  • LayerLens宣布举办Stratix杯,一个模拟足球锦标赛,前沿AI模型将参与其中。
  • 微软在Build大会上发布了新的MAI模型,标志着AI作为操作系统的趋势。
站内正文

序列观点第872期:蛋糕是战场:谁真正控制了AI堆栈

英伟达CEO黄仁勋将AI堆栈描绘成一个五层蛋糕,强调和谐共生。但从战略角度看,这实际上是五个利润池的垂直战场,真正的控制权在于掌握稀缺层及其相邻的接缝。

  • 黄仁勋的AI蛋糕图景从芯片供应商角度强调了各层相互促进的和谐。
  • 战略家看到的是五个利润池的竞争,每层都可能被商品化。
站内正文

AI周报 #871:深入解析Claude Opus 4.8

Claude Opus 4.8于2026年5月28日发布,虽然版本号仅小幅提升,但在可靠性方面取得了重大进步,包括4倍的校准改进、修复静默跳过工具调用、更好的压缩恢复支持长期任务、动态工作流、自适应思考以及速度提升2.5倍且价格降低3倍的模式。该版本强调模型在长时间运行中的稳定性和诚实度,而非基准测试分数的提升,使其成为生产环境中代理循环的理想基础设施。

  • Claude Opus 4.8在可靠性方面显著提升,特别是校准和工具调用修复,相比4.7版本错误率降低约4倍。
  • 新特性包括动态工作流、自适应思考和快速模式,使得模型在长时间任务中更稳定且成本更低。
站内正文

序列知识 #870:液态模型与后Transformer架构探索

本文探讨了Transformer架构的局限性,以及液态模型作为一种有前景的替代方案,后者更适用于低延迟、隐私保护的端侧智能场景。

  • Transformer架构虽主导AI,但全局注意力机制导致推理时内存和计算成本高昂。
  • 液态模型通过动力学方法替代注意力机制,为实时、低功耗设备提供可能。
站内正文

The Sequence Radar #869:AI上周要闻:Token成为账户单位——Opus 4.8、OpenRouter、Cognition、Snowflake及教皇警告

Anthropic发布Claude Opus 4.8,接近运营盈利;OpenRouter、Cognition等公司融资规模惊人;Snowflake与AWS签下60亿美元大单;Pope Leo XIV发布通谕警告AI风险。AI行业正在从以模型为中心的竞争转向以token为计价单位的商业模式。

  • Anthropic的Claude Opus 4.8在编码和推理能力上小幅提升,并引入努力控制、动态工作流和诚实度测量。
  • OpenRouter完成1.13亿美元融资,周处理量达25万亿token;Cognition融资10亿美元,其AI开发者Devin撰写89%的内部代码。
站内正文

序列观点#868:递归是新的扩展定律

在AI时代,扩展定律曾驱动进步,但现在递归——模型或系统自我审视、修正、搜索和模拟的能力——正在成为新的扩展维度。这一转变标志着从单次前向传播到循环计算的范式转移。

  • 传统AI进步依赖于更大模型和更多数据,但递归正成为新前沿。
  • 递归使模型能够反复改进答案,而非一次性输出。
站内正文

AI序列第867期:潜力思考——为什么Sapient的HRM-Text是对思维链的悄然反驳

本文批评了大型语言模型中的思维链(CoT)推理方式,认为它效率低下,因为推理过程被迫离开残差流变成离散的token。Sapient Intelligence的HRM-Text模型通过在潜在空间中进行推理来解决这个问题,为固定深度的Transformer提供可变的内部深度,从而挑战当前的推理范式。

  • 思维链(CoT)并非真正的推理,而是一种让模型从输出token中“租用”深度的变通方法。
  • Sapient Intelligence的HRM-Text将推理放在潜在空间中进行,而非token流中。
站内正文

序列知识 #866:你需要了解的三款文本扩散模型

文本扩散模型挑战了传统自回归语言生成范式,将生成过程视为从噪声或掩码开始、逐步精炼的编辑过程。文章介绍了该领域的三个关键系统:LLaDA(证明扩散可扩展为大型语言模型)、Mercury(实现商业速度优势)和Gemini Diffusion(前沿验证),它们共同代表了新架构类的三阶段:科学证明、工业部署和前沿验证。

  • 文本扩散模型通过迭代去噪而非逐词生成文本,利用双向上下文。
  • LLaDA证明了扩散模型可以扩展到真正的大语言模型规模。
站内正文

The Sequence Radar #865:上周AI回顾:Karpathy、Google、Colossus与即将到来的IPO浪潮

上周AI领域迎来重大转折:Google发布Gemini Omni及代理优先平台;Andrej Karpathy加入Anthropic,专注于利用Claude加速预训练研究;Anthropic与xAI达成价值450亿美元的Colossus算力租赁协议;Cerebras IPO成功,市值近950亿美元;SpaceX、OpenAI和Anthropic计划在未来六个月内相继上市,总估值可能超过3万亿美元。此外,多项前沿研究发布,包括HRM-Text高效预训练范式、AI评审员效果评估、NVIDIA的联合AR-扩散模型等。

  • Google在I/O大会上推出Gemini Omni多模态模型和代理优先平台Antigravity,整合TPU 8i实现垂直集成。
  • Andrej Karpathy加入Anthropic,组建团队利用Claude加速预训练研究,标志着自我改进循环的实质性进展。
站内正文

《序列观点》第864期:每个AI代理都需要一台电脑

AI代理的下一个阶段将由对计算机的访问定义——文件系统、终端、浏览器等,而非仅仅是更好的模型。代理沙箱市场正在兴起。

  • AI代理需要真实的执行环境,包括文件系统、终端、网络等。
  • 仅能生成令牌的代理如同缸中之脑,缺乏行动能力。
站内正文

序列知识第862期:了解文本扩散模型

文本扩散模型作为自回归Transformer模型在语言生成领域的可信替代方案正在兴起,克服了生成漂移和反转诅咒等局限。

  • 扩散模型主导视觉AI,但在文本领域长期被忽视。
  • 自回归模型存在固有问题:从左到右生成、缺乏全局规划、错误级联。
站内正文

序列雷达 #861:上周AI要闻——IPO、交互式模型与递归之梦

上周AI领域迎来多个重要事件:Cerebras IPO使其市值飙升至950亿美元;Thinking Machines推出将交互能力内建于模型本身的“交互式模型”;前Salesforce首席科学家Richard Socher创立Recursive Superintelligence,致力于通过自动实验实现AI自我改进;前阿里巴巴Qwen负责人林俊阳以约20亿美元估值创办新AI实验室。

  • Cerebras IPO首日大涨68%,市值达950亿美元,凸显AI硬件的重要性。
  • Thinking Machines发布研究预览版交互式模型,将实时协作作为模型本身的一部分。
站内正文

序列知识 #858:状态空间模型如何从新奇之物蜕变为Transformer的强劲对手

状态空间模型(SSM)凭借线性时间复杂度和恒定内存推理,正在挑战Transformer在序列建模中的主导地位。本文梳理了SSM的数学基础、发展历程及其在语言建模等任务上的表现,指出其已逐渐具备与Transformer竞争的能力。

  • Transformer的自注意力机制存在O(n²)的复杂度问题,限制了超长上下文窗口的扩展。
  • 状态空间模型提供线性复杂度、无KV缓存,推理时内存恒定。
站内正文

序列雷达 #857:上周AI速览:机器内部,文本框之外

本周AI领域呈现科学化、产品化和投机化并存的趋势。Anthropic发布了自然语言自编码器,实现模型内部状态的语言化解释;OpenAI推出新语音模型,推动AI向原生界面演进;SubQ声称拥有1200万token上下文窗口,挑战现有RAG架构;中国AI实验室DeepSeek和Moonshot估值飙升,市场将AI公司视为战略资产。整体而言,AI正从模型竞赛转向基础设施竞赛。

  • Anthropic的自然语言自编码器将模型激活压缩为自然语言,开创了可解释性的新范式
  • OpenAI语音模型使AI从文本界面转向实时语音代理,用户体验发生质变
站内正文

The Sequence 本周AI第855期:深入解析Nemotron Omni——NVIDIA为智能体打造的新多模态大脑

NVIDIA的Nemotron 3 Nano Omni是一款多模态推理模型,将视频、音频、图像和文本处理统一到单个高效模型中,用于智能体工作流,避免了分离模型带来的有损管道。

  • Nemotron 3 Nano Omni将视频、音频、图像和文本整合到一个模型中。
  • 旨在取代由独立ASR、VLM和OCR模型组成的碎片化管道。
站内正文

全部来源