2026-06-14站内改写1 分钟阅读更新: 2026-06-14

无情的人工智能自我进化

Harness Forge 是一个 Claude Code 技能，通过提出-评分-帕累托循环优化固定 AI 模型周围的框架。它原生实现了 Meta-Harness 方法，将代码从 1,260 行减少到 75 行，在文本分类中实现了 +7.7 准确率点和 4 倍更少的上下文令牌。

来源Hacker News AI作者: proteus-design

Harness Forge 是一个针对 Claude Code 的智能体技能，它实现了一种端到端的“框架优化”循环：提出候选方案、评分、保留帕累托最优方案，然后重复。该技能旨在改进固定模型周围的代码——包括记忆、检索、上下文构建、摘要、提示模板和工具选择逻辑——而模型本身从不改变。

该方法源自 Lee 等人 2026 年的论文《Meta-Harness: End-to-End Optimization of Model Harnesses》。原始的参考实现包含约 1,260 行 Python 代码，用于驱动无头 Claude。而在 Claude Code 中，由于原生支持代理运行时，Harness Forge 仅保留了核心领域逻辑（一个廉价评分器），并将整个外部循环表达为原生编排，总代码量仅约 75 行。

其工作流程如下：首先用现有框架种子化前沿；然后重复提出 k 个候选变体，验证它们是否导入/类型检查，在保留的评估集上评分，并执行帕累托合并以在质量提升和成本降低之间权衡。最终，在未触及的测试集上对前沿进行一次评分。

论文的标题结果是：在文本分类任务中，准确率提升 7.7 个百分点，同时上下文令牌减少约 4 倍。这纯粹是框架侧的胜利。

Harness Forge 的最大优势在于其原生性。它避免了手动编写代理运行时的冗余，使得整个搜索从约 1,260 行缩减到约 75 行。用户只需提供廉价的确定性评分器、评估语料库、提议者先验知识以及前沿状态即可。

然而，有一个常见的陷阱会破坏这种搜索：“冻结重放缺陷”。如果评分器重放缓存输出，那么框架候选无法改变记录的结果，只会移动成本轴。解决方案是确保评分器评估候选真正控制的内容（如检索相关性、压缩保真度），并将质量作为单向不伤害的底线而不是最大化轴。

Harness Forge 适用于基础模型固定、任务重复且存在可衡量评估的场景。它与强化学习互补：在固定基础模型阶段，它是唯一可用的优化器，同时为后续的 RL 阶段强化了评估体系。

安装简单，可通过一行 curl 命令或作为 Claude Code 插件安装。项目仓库包含完整的示例和文档。