AI News HubLIVE
站内改写1 分鐘閱讀

無情的人工智慧自我進化

Harness Forge 是一個 Claude Code 技能,透過提出-評分-帕累託迴圈最佳化固定 AI 模型周圍的框架。它原生實現了 Meta-Harness 方法,將程式碼從 1,260 行減少到 75 行,在文本分類中實現了 +7.7 準確率點和 4 倍更少的上下文令牌。

來源Hacker News AI作者: proteus-design

Harness Forge 是一個針對 Claude Code 的智慧體技能,它實現了一種端到端的“框架最佳化”迴圈:提出候選方案、評分、保留帕累托最優方案,然後重複。該技能旨在改進固定模型周圍的程式碼——包括記憶、檢索、上下文構建、摘要、提示模板和工具選擇邏輯——而模型本身從不改變。

該方法源自 Lee 等人 2026 年的論文《Meta-Harness: End-to-End Optimization of Model Harnesses》。原始的參考實現包含約 1,260 行 Python 程式碼,用於驅動無頭 Claude。而在 Claude Code 中,由於原生支援代理執行時,Harness Forge 僅保留了核心領域邏輯(一個廉價評分器),並將整個外部迴圈表達為原生編排,總程式碼量僅約 75 行。

其工作流程如下:首先用現有框架種子化前沿;然後重複提出 k 個候選變體,驗證它們是否匯入/型別檢查,在保留的評估集上評分,並執行帕累託合併以在質量提升和成本降低之間權衡。最終,在未觸及的測試集上對前沿進行一次評分。

論文的標題結果是:在文本分類任務中,準確率提升 7.7 個百分點,同時上下文令牌減少約 4 倍。這純粹是框架側的勝利。

Harness Forge 的最大優勢在於其原生性。它避免了手動編寫代理執行時的冗餘,使得整個搜尋從約 1,260 行縮減到約 75 行。使用者只需提供廉價的確定性評分器、評估語料庫、提議者先驗知識以及前沿狀態即可。

然而,有一個常見的陷阱會破壞這種搜尋:“凍結重放缺陷”。如果評分器重放快取輸出,那麼框架候選無法改變記錄的結果,只會移動成本軸。解決方案是確保評分器評估候選真正控制的內容(如檢索相關性、壓縮保真度),並將質量作為單向不傷害的底線而不是最大化軸。

Harness Forge 適用於基礎模型固定、任務重複且存在可衡量評估的場景。它與強化學習互補:在固定基礎模型階段,它是唯一可用的最佳化器,同時為後續的 RL 階段強化了評估體系。

安裝簡單,可透過一行 curl 命令或作為 Claude Code 外掛安裝。專案倉庫包含完整的示例和文件。