AI News HubLIVE
站内改写

異步智能體時代 —— Cognition的Walden Yan與OpenInspect的Cole Murray

文章探討了AI編碼工具從開發者緊密耦合的本地工作流到後台異步智能體的演進,強調2025年12月的模型拐點使“規格到PR”流程成為現實,並深入分析了Devin等後台智能體的架構、安全、測試、記憶和多智能體編排等關鍵話題。

文章情報

工程師進階

要點

  • 後台智能體正成為主流,Devin在Cognition倉庫中的合併PR佔比從16%升至80%。
  • 2025年12月的模型升級(Opus 4.5/GPT 5.2)使智能體能夠自主從規格生成完整PR。
  • Devin採用腦-機分離架構,使用完整虛擬機以實現安全隔離和真實應用測試。
  • 記憶管理、多智能體編排以及防止“氛圍編碼”導致的代碼庫退化仍是關鍵挑戰。

為甚麼重要

這條新聞值得關注,因為後台智能體正成為主流,Devin在Cognition倉庫中的合併PR佔比從16%升至80%。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

在AI編程代理領域,一個核心張力始終存在:一邊是Sierra、Decagon、Notion和Cursor等十億美元級別的代理實驗室正在崛起,另一邊是DIY代理從未如此簡單——LangGraph、Pydantic、Flue等框架,以及Anthropic、Gemini、Amazon的託管代理層出不窮。從Shopify到Stripe,從Paradigm到Razorpay,甚至Cognition的合作伙伴Ramp,都在構建自己的後台代理。然而,Cognition並未感到威脅——其最新宣佈的10億美元D輪融資依然超額認購。

Cognition的首席產品官兼聯合創始人Walden Yan與OpenInspect的創始人Cole Murray共同探討了為何“細節決定Devin的成敗”。回顧2024年,異步代理是最具AGI信念的賭注——模型尚不足以支持“氛圍編碼”,人們對AI缺乏信任,且無人確定合適的形式因素。如今,趨勢已明朗:第一代AI編碼工具讓開發者更快,但仍深度介入循環(如Copilot和Cursor的標籤自動補全);第二代是本地代理(Claude Code、Windsurf、Cursor的代理面板);而當前的異步代理時代指向一個更遠的未來——以代理編排驅動端到端開發。

正如Cursor的Michael Truell所言:“Cursor不再主要是寫代碼,而是幫助開發者構建創造軟件的工廠。這個工廠由代理艦隊組成,開發者像對待隊友一樣與之交互:提供初始方向、配備獨立工作的工具、審查他們的成果。”代理不應侷限於開發者的工作流中,而應被設置在後台運行:你可以給它一個任務、一個倉庫、一台機器、一個shell、一個瀏覽器、測試、記憶和審查循環,讓它去別處完成工作。

在不到一年內,業界情緒已從避免多代理系統轉向建議實際有效的方法。從提出“上下文工程”到構建Devin的7倍PR增長基礎設施(從Cognition倉庫中16%的提交佔比躍升至80%),Walden Yan親眼見證了後台代理的轉變。本期節目中,他與OpenInspect的Cole Murray一起,探討了為何每個人都在構建自己的Devin、2025年12月模型拐點改變了什麼,以及為何“規格到拉取請求”正成為真正的生產工作流。

對話深入探討了後台代理的架構:盒子內與盒子外的 harness、Devin為何分離“大腦”與機器、倉庫設置為何仍是最棘手的問題之一、為何Docker不夠用、以及完整虛擬機、快照、作用域密鑰、GitHub機器人、Slack集成和基於視頻的測試如何協同工作。他們還討論了記憶、MCP的限制、多代理編排、AI代碼審查、SRE自動分類、產品經理通過Slack發佈代碼、Windsurf 2.0、混合前沿/次前沿系統,以及不受控制的“氛圍編碼”的真正失敗模式:你的代碼庫退化成最差工程師的水平。

隨着代理吞噬軟件,軟件吞噬世界,結論不言而喻。本期涵蓋的議題包括:工程界正在覺醒於後台代理和雲代理;2025年12月的模型拐點使規格到PR流程變得實用;Devin的合併PR增長7倍,提交佔比從16%升至80%;Cole為何構建OpenInspect作為開源後台代理系統;20美元/座位的代理產品經濟學與變現困境;Cognition實際銷售的內容(基礎設施、入職培訓、集成和採用);盒子內與盒子外的Harness及架構重要性;Devin為何分離大腦與機器以確保安全與權限;倉庫設置、作用域密鑰、Docker Compose和代理就緒開發環境;為何完整虛擬機在代理需要運行真實應用並測試時至關重要;Android、macOS、Windows、嵌套虛擬化和機器特定代理工作;為何測試比“計算機使用”困難得多;截圖、視頻驗證與“我知道它有效”的合併時刻;GitHub UX、Devin Review、AI審查員以及代理回應PR評論;為何僅MCP不足以實現一流的Slack和企業集成;記憶、知識、技能、Claude.md以及檢索為何仍未解決;Devin的自動生成記憶與記憶修剪挑戰;始終在線的代理作為問題的永久產品經理;子代理、元Devin管理以及多代理系統實際增加的價值;為何純自動合併的“氛圍編碼”大約兩週後崩潰;AI代碼異味、lint規則、獎勵黑客和針對代理編寫代碼的Semgrep;GitAI、內聯上下文以及保留代碼更改背後的“為什麼”;本地測試、模擬服務器、舊代碼庫以及為代理準備公司的過程;Windsurf 2.0與本地前台代理到雲後台代理的交接;SRE自動分類、支持工作流以及代理作為第一響應者;產品經理、營銷人員和非工程師通過Slack創建拉取請求;AI代理預算(每位工程師1000至5000美元)以及混合前沿/次前沿系統;自主編碼工廠的崛起以及Cognition正在招聘的職位。

Walden Yan與Cole Murray的完整對話現已上線,附有時間戳和完整文字記錄。