2026-05-15 08:30 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

【AINews】万物皆为指挥家

本期AI新闻涵盖多个热点：GitHub Copilot App模仿Conductor的形态引发讨论；OpenAI推出Codex移动版，支持远程控制编码代理；LangChain发布SmithDB和Engine，将代理追踪数据转化为改进循环；Anthropic限制Claude Code使用引发开发者强烈反弹；Figure展示人形机器人24/7自主分拣直播；以及多项研究进展，包括扩散语言模型、时间序列基础模型和可解释性等。

来源Latent Space

文章情报

工程师入门

要点

GitHub Copilot App采用类似Conductor的代理优先形态，Conductor创始人获YC CEO Garry Tan公开支持。
OpenAI Codex登陆ChatGPT移动端，支持远程启动、审查和执行编码任务。
LangChain发布SmithDB和LangSmith Engine，实现代理追踪数据驱动的自动修复与评估。
Anthropic限制Claude Code第三方封装使用，引发开发者大规模取消订阅，强调平台风险。
Figure人形机器人实现24小时以上自主分拣，声称无需远程操作，达到人类同等吞吐量。

为什么重要

这条新闻值得关注，因为GitHub Copilot App采用类似Conductor的代理优先形态，Conductor创始人获YC CEO Garry Tan公开支持。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

在AI新闻相对平静的一天，一场围绕编码代理形态的争论却异常火热。GitHub宣布推出新的GitHub Copilot App，这是一个桌面环境，专注于并行工作流、仓库/PR生命周期管理和模型灵活性。这一举动被广泛视为对Conductor这款先行者的直接模仿。Conductor率先采用了“代理优先”的形态，并因此获得了Y Combinator CEO Garry Tan的公开赞誉，他称Conductor“反应更快、更透明、更稳定”。这引发了业界对两个关键问题的思考：如果你开创了一种形态，如何在他人复制时实现变现？以及，这种形态之后的下一个趋势是什么？

与此同时，OpenAI进一步将Codex融入日常开发流程。最重要的产品发布是Codex集成到ChatGPT移动应用中，用户可以在手机上启动任务、审查输出、批准命令并远程引导执行，而Codex继续在笔记本电脑或开发盒上运行。OpenAI还宣布远程SSH功能现已普遍可用，并增加了钩子和程序化访问令牌，以便在企业环境中进行自动化。此外，OpenAI还发布了关于Windows沙盒的技术报告，探讨了编码代理在实用性与受限机器访问之间的权衡。

在代理基础设施方面，LangChain发布了重要的新工具。SmithDB是一个专为代理追踪数据构建的数据库，而LangSmith Engine可以消费追踪数据、聚类失败案例、识别潜在代码问题并提出修复和评估建议——将可观察性从被动检查转变为改进循环。社区评论强调了SmithDB在架构上转向对象存储和自定义查询路径的意义。LangChain还宣布了LangChain Labs，这是一个围绕代理持续学习的应用研究项目，其理念是将生产追踪数据转化为训练信号、评估和针对性能力提升。

执行隔离方面也有进展：W&B和CoreWeave联合推出了CoreWeave Sandboxes，用于强化学习、工具使用和评估工作负载的隔离执行，并明确测试了包含破坏性命令的场景。开源社区也出现了本地代理调试工具，可将追踪数据暴露给Codex/Claude Code以自动编写评估。

最激烈的生态系统反应来自Anthropic对Claude Code使用方式的限制和重塑，尤其是针对第三方封装和高频程序化工作流。Theo的帖子成为焦点，他声称T3 Code用户尽管通过官方支持路径集成，仍遭遇了剧烈的速率限制削减，随后他取消了订阅并鼓励其他人也这样做以支持开源捐赠。其他知名开发者纷纷附和，认为Anthropic实际上切断了开源开发者/应用的路径，破坏了围绕claude -p构建的工具。也有更战略性的反驳观点，认为Anthropic没有义务为第三方应用提供大量补贴的固定费用令牌，生态系统可能转向更明确的API经济和更智能的模型路由。无论如何，对于代理工程师而言，实际经验很简单：基于订阅的工具不是稳定的平台原语，提供商/模型抽象和BYOK路径正变得不可或缺。

机器人领域，Figure的直播占据了主导地位。该公司首先展示了8小时完全自主、无人监督的工作，随后扩展到24/7直播，最终报告了24小时以上的连续自主运行，没有失败，小包裹分拣的吞吐量达到人类水平，由Helix-02完全在机载运行，并具有针对分布外情况的自动重置——明确声称没有远程操作。尽管对Figure的具体评价存在分歧，但这一演示无疑是最清晰的“持续运行时间”证明之一。

研究方面，多个技术发布值得关注：Zyphra的ZAYA1-8B-Diffusion-Preview声称与自回归生成相比解码速度提升4.6-7.7倍，质量损失有限。Datadog的Toto 2.0发布了5个开源时间序列预测模型，参数从400万到25亿不等，在多个基准上排名第一，并表明扩展律可能终于适用于时间序列基础模型。Goodfire的可解释性研究指出Llama使用几何“形状旋转计算器”机制进行算术运算。在强化学习和搜索方面，有研究将LLM强化学习框架化为“生成/过滤/控制/重放”的展开工程，以及Prime Intellect在nanoGPT速度基准上的自主优化器搜索，Opus 4.7在约1万次运行后达到2930步，接近人类基准的2990步。

最后，Kimi K2.6在金融代理基准V2上被评为最佳开源模型，而Ring-2.6-1T作为开放发布获得了vLLM的即日支持。