2026-04-04 19:45 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

编码智能体的组成部分

本文详细介绍了编码智能体的六大核心组件：实时仓库上下文、提示形状与缓存重用、工具访问与使用、最小化上下文膨胀、结构化会话记忆以及委派子智能体。通过分析这些组件如何协同工作，解释了为什么精心设计的编码工具（如Claude Code和Codex CLI）能使LLM在编码任务中表现远胜于简单的聊天界面。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

文章情报

工程师中级

要点

编码智能体通过智能体框架（harness）整合仓库上下文、工具使用和记忆管理，显著提升LLM在编码任务中的表现。
六大组件包括：实时仓库上下文、提示形状与缓存重用、工具访问与使用、最小化上下文膨胀、结构化会话记忆以及委派子智能体。
一个好的编码框架甚至能让非推理模型感觉比普通聊天界面中的强大模型更加强大。
文章还对比了编码智能体与OpenClaw，并推广了作者关于推理模型的新书。

为什么重要

这条新闻值得关注，因为编码智能体通过智能体框架（harness）整合仓库上下文、工具使用和记忆管理，显著提升LLM在编码任务中的表现。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

在本文中，作者旨在全面介绍编码智能体及智能体框架的整体设计：它们是什么、如何工作，以及各个部分如何在实践中相互配合。作者经常收到其著作《从零构建大型语言模型》和《从零构建大型推理模型》读者关于智能体的提问，因此认为撰写一篇可供参考的文章会非常有用。

更广泛地说，智能体已成为一个重要话题，因为近期实用LLM系统的许多进展不仅仅来自更好的模型，更来自我们如何使用它们。在许多实际应用中，周围系统（如工具使用、上下文管理和记忆）所起的作用与模型本身同样重要。这也解释了为什么像Claude Code或Codex这样的系统在使用相同模型时，会比普通的聊天界面感觉强大得多。

文章首先阐述了LLM、推理模型和智能体之间的区别。LLM是核心的下一个词元预测模型，推理模型是经过训练或提示以在推理时花费更多计算进行中间推理、验证或搜索候选答案的LLM，而智能体则是封装在环境中的控制循环，能够调用工具、管理记忆并更新状态。智能体框架是围绕智能体的软件脚手架，管理上下文、工具使用、提示、状态和控制流；编码框架则是针对软件工程的特定框架，专门管理代码上下文、工具、执行和迭代反馈。

接下来，文章详细介绍了编码智能体的六个主要构建模块：

1. 实时仓库上下文：这是最明显也最重要的组件之一。当用户说“修复测试”或“实现xyz”时，模型应该知道它是否在Git仓库内、当前分支是什么、哪些项目文档可能包含说明等。编码智能体会在开始工作前先收集信息（作为工作空间摘要），确保每次提示不是从零开始。例如，如果智能体看到AGENTS.md或项目的README，它就能了解要运行的测试命令等。Git分支、状态和提交信息也能帮助提供关于当前正在进行的更改以及关注重点的更多上下文。

2. 提示形状与缓存重用：一旦智能体有了仓库视图，下一个问题是如何将这些信息高效地输入模型。智能的运行时不会在每次交互时都从零构建整个提示，而是保持稳定的提示前缀（包含通用指令、工具描述和工作空间摘要），只更新变化的部分（如最新的用户请求、最近的对话记录等）。这种缓存机制极大地减少了计算浪费，因为会话中大部分信息是重复的。

3. 工具访问与使用：工具访问让编码智能体显得更像智能体而非聊天机器人。智能体不能随意生成任意语法，而是从预定义的允许工具列表中选择，并提供清晰参数。运行时可以验证工具名称、参数有效性，并在执行前请求用户批准。这种约束既提高了安全性，也提高了可靠性。例如，在Mini Coding Agent中，模型必须选择类似列出文件、读取文件、搜索、运行Shell命令、写入文件等工具，并提供正确格式的参数。运行时会在执行前进行多项检查，如工具是否已知、参数是否有效、是否需要用户批准、请求的路径是否在工作空间内等。

4. 最小化上下文膨胀：编码智能体特别容易受到上下文膨胀的影响，因为重复读取文件、冗长的工具输出和日志会迅速消耗上下文令牌。好的框架会采用裁剪、摘要和去重等策略。关键技巧是保持近期事件更丰富，而更积极地压缩旧事件，因为它们可能相关性较低。此外，还会对旧的文件读取进行去重，防止模型反复看到相同的内容。作者指出，许多表面上的“模型质量”实际上是上下文质量。

5. 结构化会话记忆：编码智能体将状态分为至少两层：工作记忆（小型、精炼的状态）和完整对话记录（所有用户请求、工具输出和LLM响应的完整历史）。工作记忆用于任务连续性，保持当前任务、重要文件和近期笔记的摘要；完整对话记录支持会话恢复，存储为JSON文件。紧凑的转录用于提示重建，给模型一个压缩的近期历史视图，而工作记忆则用于维护跨回合的关键信息。

6. 委派子智能体：一旦智能体拥有工具和状态，委派就成为有用能力。主智能体可以将子任务委派给受限的子智能体（例如只读或限制递归深度），从而实现并行化并提高速度。设计挑战不仅在于如何生成子智能体，还在于如何绑定它们以防止重复工作。Claude Code长期支持子智能体，Codex最近也增加了此功能。子智能体通常会继承主智能体的沙盒和审批设置，但边界更多在于任务范围、上下文和深度。

文章还对比了编码智能体与OpenClaw。OpenClaw更像一个通用的本地智能体平台，也能处理编码任务，但优化方向不同。编码智能体针对个人在仓库中工作并请求编码助手检查文件、编辑代码和高效运行本地工具进行了优化，而OpenClaw更优化于跨聊天、频道和工作空间运行多个长期存在的本地智能体。

最后，作者宣布其新书《从零构建推理模型》已完成，目前处于早期访问阶段，预计夏季正式出版。这本书涵盖了评估推理模型、推理时扩展、自我改进、强化学习和蒸馏等主题，是作者迄今为止最雄心勃勃的作品。作者认为，理解LLM中“推理”的最佳方式是从零实现一个推理模型。