AI News HubLIVE
站内改写1 分钟阅读

无情的人工智能自我进化

Harness Forge 是一个 Claude Code 技能,通过提出-评分-帕累托循环优化固定 AI 模型周围的框架。它原生实现了 Meta-Harness 方法,将代码从 1,260 行减少到 75 行,在文本分类中实现了 +7.7 准确率点和 4 倍更少的上下文令牌。

来源Hacker News AI作者: proteus-design

Harness Forge 是一个针对 Claude Code 的智能体技能,它实现了一种端到端的“框架优化”循环:提出候选方案、评分、保留帕累托最优方案,然后重复。该技能旨在改进固定模型周围的代码——包括记忆、检索、上下文构建、摘要、提示模板和工具选择逻辑——而模型本身从不改变。

该方法源自 Lee 等人 2026 年的论文《Meta-Harness: End-to-End Optimization of Model Harnesses》。原始的参考实现包含约 1,260 行 Python 代码,用于驱动无头 Claude。而在 Claude Code 中,由于原生支持代理运行时,Harness Forge 仅保留了核心领域逻辑(一个廉价评分器),并将整个外部循环表达为原生编排,总代码量仅约 75 行。

其工作流程如下:首先用现有框架种子化前沿;然后重复提出 k 个候选变体,验证它们是否导入/类型检查,在保留的评估集上评分,并执行帕累托合并以在质量提升和成本降低之间权衡。最终,在未触及的测试集上对前沿进行一次评分。

论文的标题结果是:在文本分类任务中,准确率提升 7.7 个百分点,同时上下文令牌减少约 4 倍。这纯粹是框架侧的胜利。

Harness Forge 的最大优势在于其原生性。它避免了手动编写代理运行时的冗余,使得整个搜索从约 1,260 行缩减到约 75 行。用户只需提供廉价的确定性评分器、评估语料库、提议者先验知识以及前沿状态即可。

然而,有一个常见的陷阱会破坏这种搜索:“冻结重放缺陷”。如果评分器重放缓存输出,那么框架候选无法改变记录的结果,只会移动成本轴。解决方案是确保评分器评估候选真正控制的内容(如检索相关性、压缩保真度),并将质量作为单向不伤害的底线而不是最大化轴。

Harness Forge 适用于基础模型固定、任务重复且存在可衡量评估的场景。它与强化学习互补:在固定基础模型阶段,它是唯一可用的优化器,同时为后续的 RL 阶段强化了评估体系。

安装简单,可通过一行 curl 命令或作为 Claude Code 插件安装。项目仓库包含完整的示例和文档。