2026-05-25 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

駕馭、腳手架與值得釐清的AI智慧體術語

本文旨在釐清AI智慧體領域中常被混淆的術語，如“harness”（執行層）與“scaffold”（行為定義層）的區別，並解釋模型、智慧體、工具使用、子智慧體等概念，同時涵蓋訓練相關術語。

在人工智慧領域飛速發展的今天，新術語的湧現速度往往超過共識的形成。尤其是在AI智慧體（Agent）領域，“harness”和“scaffold”等詞彙被廣泛使用卻缺乏統一定義，給新手甚至資深從業者帶來困惑。本文基於ICLR 2026上的討論，旨在系統梳理這些核心概念，為讀者提供一個清晰的思維模型。

首先，模型（Model）指的是底層的語言模型（LLM），如Claude、Qwen、GPT等。它僅接收文本並生成文本，本身不具備記憶或迴圈能力。模型可以表達呼叫工具的意圖，但需要外部系統來實際執行。將模型包裹在腳手架（scaffold）和執行層（harness）中後，它就變成了一個智慧體。

腳手架（Scaffold）是圍繞模型的行為定義層，包括系統提示（system prompt）、工具描述、輸出解析方式以及跨步驟的記憶管理（上下文管理）。它決定了模型如何“看”世界並採取行動，無論是在訓練階段還是推理階段。一些產品如Claude Code和Codex將整個非模型部分統稱為“harness”，但嚴格來說，scaffold和harness有明確分工：scaffold提供指令和格式，harness負責執行迴圈。

執行層（Harness）是智慧體內部的核心執行元件：它負責呼叫模型、處理模型發出的工具呼叫請求、決定何時停止執行。Harness工程是設計這一層的學科，包括停止條件、錯誤處理和安全護欄。在評估場景中，它表現為評估執行層（eval harness），執行固定場景記錄指標而非更新權重。社群常用公式：智慧體 = 模型 + 執行層。

智慧體（Agent）源自強化學習，在LLM語境下擴充套件為“模型加上使其能迴圈行動的所有元件”。一個編碼智慧體的具體例子：系統提示、工具描述和輸出格式構成腳手架；呼叫模型、處理工具呼叫並決定何時停止的迴圈是執行層。因此，兩個使用相同底層模型的產品可能因執行層設計不同而體驗迥異。

上下文工程（Context Engineering）涉及設計智慧體上下文視窗的內容：每一步模型看到什麼、系統提示、工具描述、對話歷史、檢索知識等。這不是一次性決策，而是執行中持續管理的過程。短期記憶（上下文視窗內）和長期記憶（跨會話持久化）都是其組成部分。

策略（Policy）定義了智慧體在各種情況下的行為機率。在LLM系統中，部分策略嵌入模型權重，部分由腳手架和執行層決定。策略不是智慧體，後者是包含策略在內的完整系統。

工具使用（Tool Use）使智慧體能夠呼叫API、程式碼直譯器、資料庫等外部資源。模型以結構化格式表達工具呼叫意圖，現代推理API將其作為一等物件處理：執行層接收呼叫並路由到正確函式，結果反饋回上下文繼續迴圈。

技能（Skills）是可複用的結構化知識包，用於完成多步驟任務。與單個工具不同，技能封裝了達成目標所需的一切（如“調查bug、形成假設、編寫修復”），可跨智慧體遷移並按需載入。子智慧體（Sub-agents）是可由其他智慧體呼叫的獨立智慧體，擁有自己的模型和腳手架，能獨立推理並返回結果。

訓練方面，強化學習環境（RL Environment）是智慧體互動的有狀態物件，接收動作並更新狀態後返回觀察。訓練器（Trainer）（如TRL的GRPOTrainer）執行多輪智慧體回合，根據評分結果更新模型權重。軌跡/展開（Rollout）是一次完整的智慧體執行記錄，包含所見、所為和獲得的獎勵。獎勵（Reward）可以是可驗證的（測試透過/失敗）、學習的（人類偏好、LLM評判）、稀疏的（回合末單一分數）或密集的（每步分數）。評分規則（Rubrics）將獎勵分解為帶權重的多個維度。

總之，精準理解這些術語的細微差別，對於構建、部署和最佳化AI智慧體系統至關重要。本文鼓勵讀者在實踐中不斷精確定義，並歡迎反饋以共同完善這個術語體系。