2026-05-10站内改写

序列雷达 #857：上周AI速览：机器内部，文本框之外

本周AI领域呈现科学化、产品化和投机化并存的趋势。Anthropic发布了自然语言自编码器，实现模型内部状态的语言化解释；OpenAI推出新语音模型，推动AI向原生界面演进；SubQ声称拥有1200万token上下文窗口，挑战现有RAG架构；中国AI实验室DeepSeek和Moonshot估值飙升，市场将AI公司视为战略资产。整体而言，AI正从模型竞赛转向基础设施竞赛。

文章情报

投资人进阶

要点

Anthropic的自然语言自编码器将模型激活压缩为自然语言，开创了可解释性的新范式
OpenAI语音模型使AI从文本界面转向实时语音代理，用户体验发生质变
SubQ的1200万token上下文窗口若属实，将颠覆检索增强生成等现有架构
DeepSeek、Moonshot等中国AI实验室估值猛涨，反映市场对AI基础设施化的重估

为什么重要

这条新闻值得关注，因为Anthropic的自然语言自编码器将模型激活压缩为自然语言，开创了可解释性的新范式。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本周AI领域出现了几则看似不相关的新闻，但背后都指向同一个趋势：人工智能正从模型竞赛转向基础设施竞赛。

Anthropic发表了自然语言自编码器（Natural Language Autoencoders, NLA）的论文，这是本周最引人深思的研究。其核心理念是将神经网络中的隐藏激活值压缩成自然语言，然后尝试从这些解释中重建激活值。换句话说，语言成为了观测模型内部状态的显微镜。当然，这并非可解释性的魔法解决方案——这些解释可能不完整、有噪声甚至具有误导性——但概念上的转变意义重大。我们不再仅仅使用分类器和激活映射来探测模型，而是试图在潜在空间上构建语言接口。模型开始用人类最擅长的方式——语言——来解释自身。

在AI堆栈的另一端，OpenAI发布了新的语音模型，推动AI成为原生界面而非带有更好用户界面的文本框。语音从外部看似乎简单，但实时语音代理需要结合感知、推理、延迟管理、中断处理、情绪校准、工具使用和记忆等要素。当这一切运作良好时，软件的形状将发生改变：我们不再是“使用应用”，而是与一个操作员交互。这个差异微妙但深远。基于文本的AI感觉像在查询智能，而基于语音的AI则感觉像有智能相伴。

接着是SubQ备受争议的1200万token上下文窗口声明，这是本周最具挑衅性的技术主张。长上下文已成为行业最爱的炫耀资本，但原生的1200万token窗口将代表比增量进步更重大的突破。它将挑战当前检索增强生成、记忆系统、分块策略和Agent编排的架构。如果模型能直接吸收如此规模的语料库，那么围绕AI应用的部分脚手架将显得暂时。当然，这种声明需要质疑。巨大的上下文窗口不等于对该上下文的可靠推理，但即使这种雄心也具有揭示性：记忆正成为一个前沿基元。

估值新闻则讲述了同一故事的地缘政治和商业版本。DeepSeek和Moonshot现在的估值讨论使它们看起来更像国家AI基础设施而非初创公司。前沿模型实验室的定价越来越像战略资产：部分软件公司，部分云平台，部分半导体杠杆，部分地缘政治选择。市场不仅仅在估值收入，而是在估值未来计算秩序中的位置。

Sierra的新估值补充了企业的反例。当模型实验室追逐前沿智能时，Sierra展示了应用Agent如何通过嵌入客户运营成为巨大业务。第一个万亿美元AI工作流可能不会像科幻小说，而可能像呼叫中心、保险理赔、银行支持、零售服务和业务流程缓慢围绕Agent重写。

因此，本周的教训很明确：AI正变得更可检查、更会话化、记忆更丰富、更有制度价值。竞赛不再只是构建更聪明的模型，而是构建将智能转化为基础设施的接口、记忆系统、部署层和公司。

**AI研究**

**自然语言自编码器：将Claude的思考转化为文本** — Anthropic。该研究引入自然语言自编码器（NLA），将复杂语言模型激活转化为可读文本，揭示模型内部未口头化的推理。通过安全测试和模型审计中应用NLA，研究人员能成功检测模型何时秘密知道自己在被评估，并发现隐藏的错位动机。
**SkillOS：学习技能策展以实现自进化Agent** — UIUC、谷歌等。介绍SkillOS，一种基于强化学习的框架，使自进化LLM智能体学习复杂的长期技能策展策略。通过冻结的Agent执行器与可训练的技能策展器（更新外部技能库）配对，使智能体有效从稀疏、延迟的反馈中学习，实现更精准的技能使用和跨多种推理及多轮Agent任务的性能提升。
**D-OPSD：用于持续调整步骤蒸馏扩散模型的在线自蒸馏** — 香港科技大学、阿里巴巴、加州大学圣地亚哥分校、香港中文大学。提出D-OPSD，一种用于微调步骤蒸馏扩散模型的在线学习范式，利用其LLM/VLM编码器继承的上下文能力。通过为模型分配教师和学生双角色（带有不同多模态上下文），D-OPSD能学习新概念和风格而不牺牲模型原有的高效少步生成能力。
**Agentic AI系统应设计为边际token分配器** — 伊利诺伊大学厄巴纳-香槟分校。观点论文，认为Agentic AI系统应构建为基于质量、成本、延迟和风险组合分配边际token的经济体，而非仅作为按单位定价的文本生成器。采用边际token分配视角有助于解释和解决反复出现的系统故障（如过度路由、过度委托、缓存误用），这些故障源于AI堆栈不同层孤立优化。
**计数作为语言模型可靠性的最小探针** — 斯坦福大学。引入稳定计数容量，一种纯机械的分析方法，通过让语言模型重复计数符号直至失败来测试其程序可靠性，有效排除语义和知识干扰。评估揭示当前语言模型依赖有限的类计数内部状态而非开放式逻辑，导致程序性遵循规则在资源耗尽时崩溃为猜测。
**幻觉破坏信任；元认知是前进之路** — 谷歌研究、特拉维夫大学。将AI幻觉重新定义为自信的错误，并论证模型无法完美区分真理与错误造成了效用与严格事实性之间的不可避免权衡。为克服此僵局，作者提出开发能够“忠实不确定性”的元认知模型，即将模型的语言不确定性与内在不确定性对齐，以保留有用信息同时向用户准确传达怀疑。

**AI技术发布**

**GPT-Realtime** — OpenAI推出三款新音频模型，用于构建语音应用。
**Gemma MTP** — 谷歌发布Gemma多Token预测（MTP），一种新的推测解码架构，可同时预测多个token。

**10条重要AI新闻**

**DeepSeek估值目标450亿美元，首次融资轮** — DeepSeek正在进行首轮外部融资，估值已从200亿美元飙升至450亿美元，由国家支持的中国集成电路产业投资基金（大基金）领投，腾讯和阿里巴巴据称在洽谈参与。创始人梁文峰（持股约90%）开放股权主要为了发行员工股权和防止研究员被挖角。
**SpaceX“Terafab”芯片工厂** — SpaceX考虑在德州建造一个多阶段垂直整合的半导体和先进计算工厂，初始投入550亿美元，总计可达1190亿美元，涉及特斯拉和英特尔，为AI服务器、卫星、太空数据中心和自动驾驶特斯拉车辆/机器人供应芯片。
**Ethos 2275万美元A轮** — 伦敦Ethos获得由a16z领投的2275万美元A轮，用于扩展其语音Agent驱动的专家网络，每周约聘请3.5万名专家，服务对冲基金、PE公司、AI实验室和咨询公司。
**QuTwo 3.8亿美元估值** — 赫尔辛基QuTwo获得2500万欧元（约2900万美元）天使轮融资，估值3.25亿欧元（约3.8亿美元），由独角兽创始人和Midas榜单投资者投资，用于扩展企业AI工作流编排层QuTwo OS。
**SAP收购Prior Labs并屏蔽竞争Agent** — SAP宣布收购弗莱堡表格基础模型初创公司Prior Labs（几乎全现金交易），并在四年内投资10亿欧元将其打造为面向结构化企业数据的欧洲前沿AI实验室，同时更新API政策以屏蔽除SAP认可的（如Joule和Nvidia的NemoClaw）之外的第三方AI Agent。
**CopilotKit 2700万美元A轮** — 西雅图CopilotKit获得2700万美元（含A轮和此前未公布的种子轮），由Glilot Capital、NFX和SignalFire领投，用于扩展其开源AG-UI协议并推出CopilotKit Enterprise Intelligence，供Cisco、Docusign和Deutsche Telekom等客户使用。
**Sierra 9.5亿美元融资** — Bret Taylor的Sierra获得由Tiger Global和GV领投的9.5亿美元，估值超过150亿美元，用于扩展其企业客户体验AI Agent平台，目前该平台服务超过40%的财富50强公司，ARR达1.5亿美元。
**Moonshot AI / Kimi 200亿美元估值** — 北京Moonshot AI即将完成约20亿美元新融资，由美团龙珠领投，中国移动和中信PE参与，估值超过200亿美元。其产品Kimi年化经常性收入在4月突破2亿美元。
**Snap与Perplexity价值4亿美元交易终止** — Snap在Q1 2026投资者信函中披露，与Perplexity的4亿美元现金加股权合作伙伴关系（去年11月宣布）已在Q1“友好结束”，双方未能就更大范围推广达成一致。Snap 2026年销售指引假设该交易贡献为零。
**Subquadratic / SubQ启动** — 迈阿密初创公司Subquadratic于5月5日走出隐身模式，获得Justin Mateen等领投的2900万美元种子轮（估值据称5亿美元），声称其首个模型SubQ 1M-Preview是首个完全基于次二次注意力架构的LLM，具有1200万token上下文窗口和约1000倍的注意力计算减少。