AI News HubLIVE
站內改寫3 分鐘閱讀

xAI 在 Grok Build 中推出 /goal,為多步驟編碼任務提供長時間執行的自主執行並內建驗證

xAI 在 Grok Build 終端編碼代理中推出了 /goal 模式,支援長時間執行的自主任務執行。使用者只需給出一個目標,代理會規劃步驟、執行進度檢查並驗證結果,直至任務完成。該功能適用於大型程式碼遷移、重構、依賴升級等多步驟任務,並提供了狀態檢視、暫停、恢復和清除等控制命令,需要 SuperGrok 或 X Premium Plus 訂閱。

來源MarkTechPost作者: Michal Sutter

xAI 近日在 Grok Build(其終端編碼代理)中推出了名為 /goal 的新模式,旨在實現長時間執行的自主任務執行。使用者只需交給代理一個較大的實現任務,即可放手讓代理自主工作。

傳統的編碼會話通常需要反覆執行和驗證:使用者給出提示,代理執行操作,使用者再驗證每一步。而 /goal 改變了這一迴圈:代理會持續工作,直到任務完成並透過驗證。驗證方式可以包括審查程式碼、檢查網頁或執行指令碼。該模式透過一個命令和可見的進度檢查清單來封裝自主性。

什麼是 /goal?

/goal 是 Grok Build 內部的一種模式,而非獨立產品。Grok Build 是 xAI 面向軟體工程的編碼代理和命令列工具(CLI),它針對原生代碼庫執行,讀取檔案並執行命令。Grok Build 已具備多種代理特性:計劃模式(在批准前阻止編輯)、將大型工作委託給並行執行的專門子代理、讀取 AGENTS.md、外掛、鉤子、技能和 MCP 伺服器等。MCP 是一種連線代理與外部工具和資料的協議。

使用該功能需要 SuperGrok 或 X Premium Plus 訂閱。使用者透過一條命令安裝 CLI,登入賬戶後即可呼叫 /goal。該模式專為任務交接設計:使用者描述一個目標,代理負責處理多步驟工作。

長時間執行執行的重要性

代理獲得的是一個目標,而不僅僅是單次提示。它會規劃步驟、執行、觀察結果,並在現實與計劃不符時重新規劃。這就是“觀察-規劃-行動”迴圈。其代價是可觀察性:長時間執行會產生許多需要監控的操作。/goal 透過進度檢查清單和控制命令來應對這一問題。

/goal 的工作原理

使用者在 Grok Build 會話中(而非系統 shell)透過一行命令設定目標。例如:

/goal 將認證模組遷移到新 API

Grok Build 會為該目標規劃方法,將其分解為進度檢查清單,然後逐一執行清單項。執行期間使用者仍可傳送額外指令。任務完成後,面板會切換為“完成”,每個檢查項都會顯示為已勾選。

關鍵細節:驗證步驟

值得注意的是驗證步驟。/goal 不會在編寫程式碼後停止,而是繼續直到任務完成並驗證。根據 xAI 的說法,驗證可以採取三種形式:代理審查生成的程式碼、檢查網頁以確認行為、或執行指令碼進行測試。這對於自主執行至關重要:僅在編輯檔案的代理可能在沒有驗證結果有效時報告成功。內建驗證確保代理在完成前測試自身輸出。

用例示例

模組遷移是主要示例。/goal 遷移認證模組覆蓋了多檔案更改,任務冗長、機械且可測試。其他適用的任務包括:重構服務後執行測試套件以確保綠色構建;新增端點後檢查渲染頁面是否有執行時錯誤;升級依賴、執行構建並修復中斷;跨檔案移植配置後執行指令碼驗證。每個任務都更適合自主目標而非快速單行編輯。收益在於工作可以跨越多個原本需要監督的步驟。

控制長時間執行的目標

/goal 提供了監控和控制的命令,均在 Grok Build 會話中輸入:

/goal status – 檢視即時進度面板 /goal pause – 暫停工作,保留目標 /goal resume – 從停止處繼續 /goal clear – 完全丟棄目標,重新開始

這些控制對於無人值守執行很重要。使用者可以在代理自主編輯檔案和執行指令碼時隨時暫停或丟棄目標。

與其他工具比較

與 Claude Code、OpenAI Codex CLI 和 Cursor Agent Mode 等終端編碼代理相比,/goal 增加了明確的、可操控的目標物件。其命名生命週期命令和內建驗證步驟是新增的部分。具體對比維度包括:交接模型(一行目標物件 vs 對話式任務列表)、進度檢視(自動檢查清單 + 即時面板 vs 內部待辦列表)、控制命令(status/pause/resume/clear vs 中斷和重新提示)、驗證(執行直到完成並驗證 vs 僅在指示時執行測試)、執行位置(終端 TUI/headless/ACP vs 終端或IDE整合),以及訪問方式(SuperGrok/X Premium Plus 訂閱 vs 訂閱或API)。

關鍵要點

– /goal 在 Grok Build 終端代理中執行長時間自主任務。 – 它規劃方法、構建檢查清單、執行並驗證直到完成。 – 驗證可包括審查程式碼、檢查網頁或執行指令碼。 – status、pause、resume 和 clear 控制即時執行。 – 需要 SuperGrok 或 X Premium Plus 訂閱。

社群反應

欲瞭解技術細節,請查閱相關文件。歡迎關注我們的 Twitter,加入 15 萬+ 機器學習 SubReddit 並訂閱我們的新聞通訊。現在也可以加入我們的 Telegram 頻道。如需合作推廣 GitHub 倉庫、Hugging Face 頁面、產品釋出或網路研討會等,請聯絡我們。