2026-06-14站内改写1 分鐘閱讀更新: 2026-06-14

無情的人工智慧自我進化

Harness Forge 是一個 Claude Code 技能，透過提出-評分-帕累託迴圈最佳化固定 AI 模型周圍的框架。它原生實現了 Meta-Harness 方法，將程式碼從 1,260 行減少到 75 行，在文本分類中實現了 +7.7 準確率點和 4 倍更少的上下文令牌。

來源Hacker News AI作者: proteus-design

Harness Forge 是一個針對 Claude Code 的智慧體技能，它實現了一種端到端的“框架最佳化”迴圈：提出候選方案、評分、保留帕累托最優方案，然後重複。該技能旨在改進固定模型周圍的程式碼——包括記憶、檢索、上下文構建、摘要、提示模板和工具選擇邏輯——而模型本身從不改變。

該方法源自 Lee 等人 2026 年的論文《Meta-Harness: End-to-End Optimization of Model Harnesses》。原始的參考實現包含約 1,260 行 Python 程式碼，用於驅動無頭 Claude。而在 Claude Code 中，由於原生支援代理執行時，Harness Forge 僅保留了核心領域邏輯（一個廉價評分器），並將整個外部迴圈表達為原生編排，總程式碼量僅約 75 行。

其工作流程如下：首先用現有框架種子化前沿；然後重複提出 k 個候選變體，驗證它們是否匯入/型別檢查，在保留的評估集上評分，並執行帕累託合併以在質量提升和成本降低之間權衡。最終，在未觸及的測試集上對前沿進行一次評分。

論文的標題結果是：在文本分類任務中，準確率提升 7.7 個百分點，同時上下文令牌減少約 4 倍。這純粹是框架側的勝利。

Harness Forge 的最大優勢在於其原生性。它避免了手動編寫代理執行時的冗餘，使得整個搜尋從約 1,260 行縮減到約 75 行。使用者只需提供廉價的確定性評分器、評估語料庫、提議者先驗知識以及前沿狀態即可。

然而，有一個常見的陷阱會破壞這種搜尋：“凍結重放缺陷”。如果評分器重放快取輸出，那麼框架候選無法改變記錄的結果，只會移動成本軸。解決方案是確保評分器評估候選真正控制的內容（如檢索相關性、壓縮保真度），並將質量作為單向不傷害的底線而不是最大化軸。

Harness Forge 適用於基礎模型固定、任務重複且存在可衡量評估的場景。它與強化學習互補：在固定基礎模型階段，它是唯一可用的最佳化器，同時為後續的 RL 階段強化了評估體系。

安裝簡單，可透過一行 curl 命令或作為 Claude Code 外掛安裝。專案倉庫包含完整的示例和文件。