2026-05-15 08:30 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

【AINews】萬物皆為指揮家

本期AI新聞涵蓋多個熱點：GitHub Copilot App模仿Conductor的形態引發討論；OpenAI推出Codex移動版，支持遠程控制編碼代理；LangChain發佈SmithDB和Engine，將代理追蹤數據轉化為改進循環；Anthropic限制Claude Code使用引發開發者強烈反彈；Figure展示人形機器人24/7自主分揀直播；以及多項研究進展，包括擴散語言模型、時間序列基礎模型和可解釋性等。

來源Latent Space

文章情報

工程師入門

要點

GitHub Copilot App採用類似Conductor的代理優先形態，Conductor創始人獲YC CEO Garry Tan公開支持。
OpenAI Codex登陸ChatGPT移動端，支持遠程啓動、審查和執行編碼任務。
LangChain發佈SmithDB和LangSmith Engine，實現代理追蹤數據驅動的自動修復與評估。
Anthropic限制Claude Code第三方封裝使用，引發開發者大規模取消訂閲，強調平台風險。
Figure人形機器人實現24小時以上自主分揀，聲稱無需遠程操作，達到人類同等吞吐量。

為甚麼重要

這條新聞值得關注，因為GitHub Copilot App採用類似Conductor的代理優先形態，Conductor創始人獲YC CEO Garry Tan公開支持。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

在AI新聞相對平靜的一天，一場圍繞編碼代理形態的爭論卻異常火熱。GitHub宣佈推出新的GitHub Copilot App，這是一個桌面環境，專注於並行工作流、倉庫/PR生命週期管理和模型靈活性。這一舉動被廣泛視為對Conductor這款先行者的直接模仿。Conductor率先採用了“代理優先”的形態，並因此獲得了Y Combinator CEO Garry Tan的公開讚譽，他稱Conductor“反應更快、更透明、更穩定”。這引發了業界對兩個關鍵問題的思考：如果你開創了一種形態，如何在他人複製時實現變現？以及，這種形態之後的下一個趨勢是什麼？

與此同時，OpenAI進一步將Codex融入日常開發流程。最重要的產品發佈是Codex集成到ChatGPT移動應用中，用户可以在手機上啓動任務、審查輸出、批准命令並遠程引導執行，而Codex繼續在筆記本電腦或開發盒上運行。OpenAI還宣佈遠程SSH功能現已普遍可用，並增加了鈎子和程序化訪問令牌，以便在企業環境中進行自動化。此外，OpenAI還發布了關於Windows沙盒的技術報告，探討了編碼代理在實用性與受限機器訪問之間的權衡。

在代理基礎設施方面，LangChain發佈了重要的新工具。SmithDB是一個專為代理追蹤數據構建的數據庫，而LangSmith Engine可以消費追蹤數據、聚類失敗案例、識別潛在代碼問題並提出修復和評估建議——將可觀察性從被動檢查轉變為改進循環。社區評論強調了SmithDB在架構上轉向對象存儲和自定義查詢路徑的意義。LangChain還宣佈了LangChain Labs，這是一個圍繞代理持續學習的應用研究項目，其理念是將生產追蹤數據轉化為訓練信號、評估和針對性能力提升。

執行隔離方面也有進展：W&B和CoreWeave聯合推出了CoreWeave Sandboxes，用於強化學習、工具使用和評估工作負載的隔離執行，並明確測試了包含破壞性命令的場景。開源社區也出現了本地代理調試工具，可將追蹤數據暴露給Codex/Claude Code以自動編寫評估。

最激烈的生態系統反應來自Anthropic對Claude Code使用方式的限制和重塑，尤其是針對第三方封裝和高頻程序化工作流。Theo的帖子成為焦點，他聲稱T3 Code用户儘管通過官方支持路徑集成，仍遭遇了劇烈的速率限制削減，隨後他取消了訂閲並鼓勵其他人也這樣做以支持開源捐贈。其他知名開發者紛紛附和，認為Anthropic實際上切斷了開源開發者/應用的路徑，破壞了圍繞claude -p構建的工具。也有更戰略性的反駁觀點，認為Anthropic沒有義務為第三方應用提供大量補貼的固定費用令牌，生態系統可能轉向更明確的API經濟和更智能的模型路由。無論如何，對於代理工程師而言，實際經驗很簡單：基於訂閲的工具不是穩定的平台原語，提供商/模型抽象和BYOK路徑正變得不可或缺。

機器人領域，Figure的直播佔據了主導地位。該公司首先展示了8小時完全自主、無人監督的工作，隨後擴展到24/7直播，最終報告了24小時以上的連續自主運行，沒有失敗，小包裹分揀的吞吐量達到人類水平，由Helix-02完全在機載運行，並具有針對分佈外情況的自動重置——明確聲稱沒有遠程操作。儘管對Figure的具體評價存在分歧，但這一演示無疑是最清晰的“持續運行時間”證明之一。

研究方面，多個技術發佈值得關注：Zyphra的ZAYA1-8B-Diffusion-Preview聲稱與自迴歸生成相比解碼速度提升4.6-7.7倍，質量損失有限。Datadog的Toto 2.0發佈了5個開源時間序列預測模型，參數從400萬到25億不等，在多個基準上排名第一，並表明擴展律可能終於適用於時間序列基礎模型。Goodfire的可解釋性研究指出Llama使用幾何“形狀旋轉計算器”機制進行算術運算。在強化學習和搜索方面，有研究將LLM強化學習框架化為“生成/過濾/控制/重放”的展開工程，以及Prime Intellect在nanoGPT速度基準上的自主優化器搜索，Opus 4.7在約1萬次運行後達到2930步，接近人類基準的2990步。

最後，Kimi K2.6在金融代理基準V2上被評為最佳開源模型，而Ring-2.6-1T作為開放發佈獲得了vLLM的即日支持。