非同步智慧體時代 —— Cognition的Walden Yan與OpenInspect的Cole Murray
文章探討了AI編碼工具從開發者緊密耦合的本地工作流到後臺非同步智慧體的演進,強調2025年12月的模型拐點使“規格到PR”流程成為現實,並深入分析了Devin等後臺智慧體的架構、安全、測試、記憶和多智慧體編排等關鍵話題。
文章情報
要點
- 後臺智慧體正成為主流,Devin在Cognition倉庫中的合併PR佔比從16%升至80%。
- 2025年12月的模型升級(Opus 4.5/GPT 5.2)使智慧體能夠自主從規格生成完整PR。
- Devin採用腦-機分離架構,使用完整虛擬機器以實現安全隔離和真實應用測試。
- 記憶管理、多智慧體編排以及防止“氛圍編碼”導致的程式碼庫退化仍是關鍵挑戰。
為什麼重要
這條新聞值得關注,因為後臺智慧體正成為主流,Devin在Cognition倉庫中的合併PR佔比從16%升至80%。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
在AI程式設計代理領域,一個核心張力始終存在:一邊是Sierra、Decagon、Notion和Cursor等十億美元級別的代理實驗室正在崛起,另一邊是DIY代理從未如此簡單——LangGraph、Pydantic、Flue等框架,以及Anthropic、Gemini、Amazon的託管代理層出不窮。從Shopify到Stripe,從Paradigm到Razorpay,甚至Cognition的合作伙伴Ramp,都在構建自己的後臺代理。然而,Cognition並未感到威脅——其最新宣佈的10億美元D輪融資依然超額認購。
Cognition的首席產品官兼聯合創始人Walden Yan與OpenInspect的創始人Cole Murray共同探討了為何“細節決定Devin的成敗”。回顧2024年,非同步代理是最具AGI信念的賭注——模型尚不足以支援“氛圍編碼”,人們對AI缺乏信任,且無人確定合適的形式因素。如今,趨勢已明朗:第一代AI編碼工具讓開發者更快,但仍深度介入迴圈(如Copilot和Cursor的標籤自動補全);第二代是本地代理(Claude Code、Windsurf、Cursor的代理面板);而當前的非同步代理時代指向一個更遠的未來——以代理編排驅動端到端開發。
正如Cursor的Michael Truell所言:“Cursor不再主要是寫程式碼,而是幫助開發者構建創造軟體的工廠。這個工廠由代理艦隊組成,開發者像對待隊友一樣與之互動:提供初始方向、配備獨立工作的工具、審查他們的成果。”代理不應侷限於開發者的工作流中,而應被設定在後臺執行:你可以給它一個任務、一個倉庫、一臺機器、一個shell、一個瀏覽器、測試、記憶和審查迴圈,讓它去別處完成工作。
在不到一年內,業界情緒已從避免多代理系統轉向建議實際有效的方法。從提出“上下文工程”到構建Devin的7倍PR增長基礎設施(從Cognition倉庫中16%的提交佔比躍升至80%),Walden Yan親眼見證了後臺代理的轉變。本期節目中,他與OpenInspect的Cole Murray一起,探討了為何每個人都在構建自己的Devin、2025年12月模型拐點改變了什麼,以及為何“規格到拉取請求”正成為真正的生產工作流。
對話深入探討了後臺代理的架構:盒子內與盒子外的 harness、Devin為何分離“大腦”與機器、倉庫設定為何仍是最棘手的問題之一、為何Docker不夠用、以及完整虛擬機器、快照、作用域金鑰、GitHub機器人、Slack整合和基於影片的測試如何協同工作。他們還討論了記憶、MCP的限制、多代理編排、AI程式碼審查、SRE自動分類、產品經理透過Slack釋出程式碼、Windsurf 2.0、混合前沿/次前沿系統,以及不受控制的“氛圍編碼”的真正失敗模式:你的程式碼庫退化成最差工程師的水平。
隨著代理吞噬軟體,軟體吞噬世界,結論不言而喻。本期涵蓋的議題包括:工程界正在覺醒於後臺代理和雲代理;2025年12月的模型拐點使規格到PR流程變得實用;Devin的合併PR增長7倍,提交佔比從16%升至80%;Cole為何構建OpenInspect作為開源後臺代理系統;20美元/座位的代理產品經濟學與變現困境;Cognition實際銷售的內容(基礎設施、入職培訓、整合和採用);盒子內與盒子外的Harness及架構重要性;Devin為何分離大腦與機器以確保安全與許可權;倉庫設定、作用域金鑰、Docker Compose和代理就緒開發環境;為何完整虛擬機器在代理需要執行真實應用並測試時至關重要;Android、macOS、Windows、巢狀虛擬化和機器特定代理工作;為何測試比“計算機使用”困難得多;截圖、影片驗證與“我知道它有效”的合併時刻;GitHub UX、Devin Review、AI審查員以及代理回應PR評論;為何僅MCP不足以實現一流的Slack和企業整合;記憶、知識、技能、Claude.md以及檢索為何仍未解決;Devin的自動生成記憶與記憶修剪挑戰;始終線上的代理作為問題的永久產品經理;子代理、元Devin管理以及多代理系統實際增加的價值;為何純自動合併的“氛圍編碼”大約兩週後崩潰;AI程式碼異味、lint規則、獎勵駭客和針對代理編寫程式碼的Semgrep;GitAI、內聯上下文以及保留程式碼更改背後的“為什麼”;本地測試、模擬伺服器、舊程式碼庫以及為代理準備公司的過程;Windsurf 2.0與本地前臺代理到雲後臺代理的交接;SRE自動分類、支援工作流以及代理作為第一響應者;產品經理、營銷人員和非工程師透過Slack建立拉取請求;AI代理預算(每位工程師1000至5000美元)以及混合前沿/次前沿系統;自主編碼工廠的崛起以及Cognition正在招聘的職位。
Walden Yan與Cole Murray的完整對話現已上線,附有時間戳和完整文字記錄。