2026-05-15 08:30 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

【AINews】萬物皆為指揮家

本期AI新聞涵蓋多個熱點：GitHub Copilot App模仿Conductor的形態引發討論；OpenAI推出Codex移動版，支援遠端控制編碼代理；LangChain釋出SmithDB和Engine，將代理追蹤資料轉化為改進迴圈；Anthropic限制Claude Code使用引發開發者強烈反彈；Figure展示人形機器人24/7自主分揀直播；以及多項研究進展，包括擴散語言模型、時間序列基礎模型和可解釋性等。

來源Latent Space

文章情報

工程師入門

要點

GitHub Copilot App採用類似Conductor的代理優先形態，Conductor創始人獲YC CEO Garry Tan公開支援。
OpenAI Codex登陸ChatGPT移動端，支援遠端啟動、審查和執行編碼任務。
LangChain釋出SmithDB和LangSmith Engine，實現代理追蹤資料驅動的自動修復與評估。
Anthropic限制Claude Code第三方封裝使用，引發開發者大規模取消訂閱，強調平臺風險。
Figure人形機器人實現24小時以上自主分揀，聲稱無需遠端操作，達到人類同等吞吐量。

為什麼重要

這條新聞值得關注，因為GitHub Copilot App採用類似Conductor的代理優先形態，Conductor創始人獲YC CEO Garry Tan公開支援。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

在AI新聞相對平靜的一天，一場圍繞編碼代理形態的爭論卻異常火熱。GitHub宣佈推出新的GitHub Copilot App，這是一個桌面環境，專注於並行工作流、倉庫/PR生命週期管理和模型靈活性。這一舉動被廣泛視為對Conductor這款先行者的直接模仿。Conductor率先採用了“代理優先”的形態，並因此獲得了Y Combinator CEO Garry Tan的公開讚譽，他稱Conductor“反應更快、更透明、更穩定”。這引發了業界對兩個關鍵問題的思考：如果你開創了一種形態，如何在他人複製時實現變現？以及，這種形態之後的下一個趨勢是什麼？

與此同時，OpenAI進一步將Codex融入日常開發流程。最重要的產品釋出是Codex整合到ChatGPT移動應用中，使用者可以在手機上啟動任務、審查輸出、批准命令並遠端引導執行，而Codex繼續在筆記型電腦或開發盒上執行。OpenAI還宣佈遠端SSH功能現已普遍可用，並增加了鉤子和程式化訪問令牌，以便在企業環境中進行自動化。此外，OpenAI還發布了關於Windows沙盒的技術報告，探討了編碼代理在實用性與受限機器訪問之間的權衡。

在代理基礎設施方面，LangChain釋出了重要的新工具。SmithDB是一個專為代理追蹤資料構建的資料庫，而LangSmith Engine可以消費追蹤資料、聚類失敗案例、識別潛在程式碼問題並提出修復和評估建議——將可觀察性從被動檢查轉變為改進迴圈。社群評論強調了SmithDB在架構上轉向物件儲存和自定義查詢路徑的意義。LangChain還宣佈了LangChain Labs，這是一個圍繞代理持續學習的應用研究專案，其理念是將生產追蹤資料轉化為訓練訊號、評估和針對效能力提升。

執行隔離方面也有進展：W&B和CoreWeave聯合推出了CoreWeave Sandboxes，用於強化學習、工具使用和評估工作負載的隔離執行，並明確測試了包含破壞性命令的場景。開源社群也出現了本地代理除錯工具，可將追蹤資料暴露給Codex/Claude Code以自動編寫評估。

最激烈的生態系統反應來自Anthropic對Claude Code使用方式的限制和重塑，尤其是針對第三方封裝和高頻程式化工作流。Theo的帖子成為焦點，他聲稱T3 Code使用者儘管透過官方支援路徑整合，仍遭遇了劇烈的速率限制削減，隨後他取消了訂閱並鼓勵其他人也這樣做以支援開源捐贈。其他知名開發者紛紛附和，認為Anthropic實際上切斷了開源開發者/應用的路徑，破壞了圍繞claude -p構建的工具。也有更戰略性的反駁觀點，認為Anthropic沒有義務為第三方應用提供大量補貼的固定費用令牌，生態系統可能轉向更明確的API經濟和更智慧的模型路由。無論如何，對於代理工程師而言，實際經驗很簡單：基於訂閱的工具不是穩定的平臺原語，提供商/模型抽象和BYOK路徑正變得不可或缺。

機器人領域，Figure的直播佔據了主導地位。該公司首先展示了8小時完全自主、無人監督的工作，隨後擴充套件到24/7直播，最終報告了24小時以上的連續自主執行，沒有失敗，小包裹分揀的吞吐量達到人類水平，由Helix-02完全在機載執行，並具有針對分佈外情況的自動重置——明確聲稱沒有遠端操作。儘管對Figure的具體評價存在分歧，但這一演示無疑是最清晰的“持續執行時間”證明之一。

研究方面，多個技術釋出值得關注：Zyphra的ZAYA1-8B-Diffusion-Preview聲稱與自迴歸生成相比解碼速度提升4.6-7.7倍，質量損失有限。Datadog的Toto 2.0釋出了5個開源時間序列預測模型，引數從400萬到25億不等，在多個基準上排名第一，並表明擴充套件律可能終於適用於時間序列基礎模型。Goodfire的可解釋性研究指出Llama使用幾何“形狀旋轉計算器”機制進行算術運算。在強化學習和搜尋方面，有研究將LLM強化學習框架化為“生成/過濾/控制/重放”的展開工程，以及Prime Intellect在nanoGPT速度基準上的自主最佳化器搜尋，Opus 4.7在約1萬次執行後達到2930步，接近人類基準的2990步。

最後，Kimi K2.6在金融代理基準V2上被評為最佳開源模型，而Ring-2.6-1T作為開放釋出獲得了vLLM的即日支援。