AI News HubLIVE
站内改写

駕馭、腳手架與值得釐清的AI智慧體術語

本文旨在釐清AI智慧體領域中常被混淆的術語,如“harness”(執行層)與“scaffold”(行為定義層)的區別,並解釋模型、智慧體、工具使用、子智慧體等概念,同時涵蓋訓練相關術語。

文章情報

工程師進階

要點

  • AI智慧體=模型+執行層(harness),其中harness負責呼叫模型和處理工具呼叫。
  • Scaffold是圍繞模型的行為定義層,包括系統提示、工具描述等。
  • 上下文工程、策略、技能和子智慧體是智慧體系統的關鍵組成部分。
  • 訓練涉及強化學習環境、訓練器、軌跡和獎勵等概念。

為什麼重要

這條新聞值得關注,因為AI智慧體=模型+執行層(harness),其中harness負責呼叫模型和處理工具呼叫。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

在人工智慧領域飛速發展的今天,新術語的湧現速度往往超過共識的形成。尤其是在AI智慧體(Agent)領域,“harness”和“scaffold”等詞彙被廣泛使用卻缺乏統一定義,給新手甚至資深從業者帶來困惑。本文基於ICLR 2026上的討論,旨在系統梳理這些核心概念,為讀者提供一個清晰的思維模型。

首先,**模型**(Model)指的是底層的語言模型(LLM),如Claude、Qwen、GPT等。它僅接收文本並生成文本,本身不具備記憶或迴圈能力。模型可以表達呼叫工具的意圖,但需要外部系統來實際執行。將模型包裹在腳手架(scaffold)和執行層(harness)中後,它就變成了一個智慧體。

**腳手架(Scaffold)**是圍繞模型的行為定義層,包括系統提示(system prompt)、工具描述、輸出解析方式以及跨步驟的記憶管理(上下文管理)。它決定了模型如何“看”世界並採取行動,無論是在訓練階段還是推理階段。一些產品如Claude Code和Codex將整個非模型部分統稱為“harness”,但嚴格來說,scaffold和harness有明確分工:scaffold提供指令和格式,harness負責執行迴圈。

**執行層(Harness)**是智慧體內部的核心執行元件:它負責呼叫模型、處理模型發出的工具呼叫請求、決定何時停止執行。Harness工程是設計這一層的學科,包括停止條件、錯誤處理和安全護欄。在評估場景中,它表現為評估執行層(eval harness),執行固定場景記錄指標而非更新權重。社群常用公式:智慧體 = 模型 + 執行層。

**智慧體(Agent)**源自強化學習,在LLM語境下擴充套件為“模型加上使其能迴圈行動的所有元件”。一個編碼智慧體的具體例子:系統提示、工具描述和輸出格式構成腳手架;呼叫模型、處理工具呼叫並決定何時停止的迴圈是執行層。因此,兩個使用相同底層模型的產品可能因執行層設計不同而體驗迥異。

**上下文工程(Context Engineering)**涉及設計智慧體上下文視窗的內容:每一步模型看到什麼、系統提示、工具描述、對話歷史、檢索知識等。這不是一次性決策,而是執行中持續管理的過程。短期記憶(上下文視窗內)和長期記憶(跨會話持久化)都是其組成部分。

**策略(Policy)**定義了智慧體在各種情況下的行為機率。在LLM系統中,部分策略嵌入模型權重,部分由腳手架和執行層決定。策略不是智慧體,後者是包含策略在內的完整系統。

**工具使用(Tool Use)**使智慧體能夠呼叫API、程式碼直譯器、資料庫等外部資源。模型以結構化格式表達工具呼叫意圖,現代推理API將其作為一等物件處理:執行層接收呼叫並路由到正確函式,結果反饋回上下文繼續迴圈。

**技能(Skills)**是可複用的結構化知識包,用於完成多步驟任務。與單個工具不同,技能封裝了達成目標所需的一切(如“調查bug、形成假設、編寫修復”),可跨智慧體遷移並按需載入。**子智慧體(Sub-agents)**是可由其他智慧體呼叫的獨立智慧體,擁有自己的模型和腳手架,能獨立推理並返回結果。

訓練方面,**強化學習環境(RL Environment)**是智慧體互動的有狀態物件,接收動作並更新狀態後返回觀察。**訓練器(Trainer)**(如TRL的GRPOTrainer)執行多輪智慧體回合,根據評分結果更新模型權重。**軌跡/展開(Rollout)**是一次完整的智慧體執行記錄,包含所見、所為和獲得的獎勵。**獎勵(Reward)**可以是可驗證的(測試透過/失敗)、學習的(人類偏好、LLM評判)、稀疏的(回合末單一分數)或密集的(每步分數)。評分規則(Rubrics)將獎勵分解為帶權重的多個維度。

總之,精準理解這些術語的細微差別,對於構建、部署和最佳化AI智慧體系統至關重要。本文鼓勵讀者在實踐中不斷精確定義,並歡迎反饋以共同完善這個術語體系。