异步智能体时代 —— Cognition的Walden Yan与OpenInspect的Cole Murray
文章探讨了AI编码工具从开发者紧密耦合的本地工作流到后台异步智能体的演进,强调2025年12月的模型拐点使“规格到PR”流程成为现实,并深入分析了Devin等后台智能体的架构、安全、测试、记忆和多智能体编排等关键话题。
文章情报
要点
- 后台智能体正成为主流,Devin在Cognition仓库中的合并PR占比从16%升至80%。
- 2025年12月的模型升级(Opus 4.5/GPT 5.2)使智能体能够自主从规格生成完整PR。
- Devin采用脑-机分离架构,使用完整虚拟机以实现安全隔离和真实应用测试。
- 记忆管理、多智能体编排以及防止“氛围编码”导致的代码库退化仍是关键挑战。
为什么重要
这条新闻值得关注,因为后台智能体正成为主流,Devin在Cognition仓库中的合并PR占比从16%升至80%。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
在AI编程代理领域,一个核心张力始终存在:一边是Sierra、Decagon、Notion和Cursor等十亿美元级别的代理实验室正在崛起,另一边是DIY代理从未如此简单——LangGraph、Pydantic、Flue等框架,以及Anthropic、Gemini、Amazon的托管代理层出不穷。从Shopify到Stripe,从Paradigm到Razorpay,甚至Cognition的合作伙伴Ramp,都在构建自己的后台代理。然而,Cognition并未感到威胁——其最新宣布的10亿美元D轮融资依然超额认购。
Cognition的首席产品官兼联合创始人Walden Yan与OpenInspect的创始人Cole Murray共同探讨了为何“细节决定Devin的成败”。回顾2024年,异步代理是最具AGI信念的赌注——模型尚不足以支持“氛围编码”,人们对AI缺乏信任,且无人确定合适的形式因素。如今,趋势已明朗:第一代AI编码工具让开发者更快,但仍深度介入循环(如Copilot和Cursor的标签自动补全);第二代是本地代理(Claude Code、Windsurf、Cursor的代理面板);而当前的异步代理时代指向一个更远的未来——以代理编排驱动端到端开发。
正如Cursor的Michael Truell所言:“Cursor不再主要是写代码,而是帮助开发者构建创造软件的工厂。这个工厂由代理舰队组成,开发者像对待队友一样与之交互:提供初始方向、配备独立工作的工具、审查他们的成果。”代理不应局限于开发者的工作流中,而应被设置在后台运行:你可以给它一个任务、一个仓库、一台机器、一个shell、一个浏览器、测试、记忆和审查循环,让它去别处完成工作。
在不到一年内,业界情绪已从避免多代理系统转向建议实际有效的方法。从提出“上下文工程”到构建Devin的7倍PR增长基础设施(从Cognition仓库中16%的提交占比跃升至80%),Walden Yan亲眼见证了后台代理的转变。本期节目中,他与OpenInspect的Cole Murray一起,探讨了为何每个人都在构建自己的Devin、2025年12月模型拐点改变了什么,以及为何“规格到拉取请求”正成为真正的生产工作流。
对话深入探讨了后台代理的架构:盒子内与盒子外的 harness、Devin为何分离“大脑”与机器、仓库设置为何仍是最棘手的问题之一、为何Docker不够用、以及完整虚拟机、快照、作用域密钥、GitHub机器人、Slack集成和基于视频的测试如何协同工作。他们还讨论了记忆、MCP的限制、多代理编排、AI代码审查、SRE自动分类、产品经理通过Slack发布代码、Windsurf 2.0、混合前沿/次前沿系统,以及不受控制的“氛围编码”的真正失败模式:你的代码库退化成最差工程师的水平。
随着代理吞噬软件,软件吞噬世界,结论不言而喻。本期涵盖的议题包括:工程界正在觉醒于后台代理和云代理;2025年12月的模型拐点使规格到PR流程变得实用;Devin的合并PR增长7倍,提交占比从16%升至80%;Cole为何构建OpenInspect作为开源后台代理系统;20美元/座位的代理产品经济学与变现困境;Cognition实际销售的内容(基础设施、入职培训、集成和采用);盒子内与盒子外的Harness及架构重要性;Devin为何分离大脑与机器以确保安全与权限;仓库设置、作用域密钥、Docker Compose和代理就绪开发环境;为何完整虚拟机在代理需要运行真实应用并测试时至关重要;Android、macOS、Windows、嵌套虚拟化和机器特定代理工作;为何测试比“计算机使用”困难得多;截图、视频验证与“我知道它有效”的合并时刻;GitHub UX、Devin Review、AI审查员以及代理回应PR评论;为何仅MCP不足以实现一流的Slack和企业集成;记忆、知识、技能、Claude.md以及检索为何仍未解决;Devin的自动生成记忆与记忆修剪挑战;始终在线的代理作为问题的永久产品经理;子代理、元Devin管理以及多代理系统实际增加的价值;为何纯自动合并的“氛围编码”大约两周后崩溃;AI代码异味、lint规则、奖励黑客和针对代理编写代码的Semgrep;GitAI、内联上下文以及保留代码更改背后的“为什么”;本地测试、模拟服务器、旧代码库以及为代理准备公司的过程;Windsurf 2.0与本地前台代理到云后台代理的交接;SRE自动分类、支持工作流以及代理作为第一响应者;产品经理、营销人员和非工程师通过Slack创建拉取请求;AI代理预算(每位工程师1000至5000美元)以及混合前沿/次前沿系统;自主编码工厂的崛起以及Cognition正在招聘的职位。
Walden Yan与Cole Murray的完整对话现已上线,附有时间戳和完整文字记录。