2026-05-31 07:03 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Show HN: HermesBench – 個人AI代理的工作流可靠性評估

HermesBench是一個評估完整個人AI代理配置（包括提示、模型、工具、記憶等）可靠性的基準。當前基線得分為78.2，涵蓋27個工作流配方，並提供可檢查的軌跡。該基準強調證據驅動的評分，並積極尋求早期反饋。

來源Hacker News AI作者: verkyyi26

HermesBench是一個專為個人AI代理設計的工作流可靠性基準，其核心理念是評估完整的代理配置，而不僅僅是底層模型。這意味着它考察的是提示詞、模型提供商、工具調用、Agent技能、記憶機制、網關行為、任務委派、安全性、延遲和穩定性等全方位的要素。目前，該基準的公開基線得分為78.2，基於27個個人代理工作流配方，並且所有執行軌跡都經過脱敏處理，供用户深入檢查。此外，共有9個評分套件覆蓋了不同的應用場景。

為了建立信任，HermesBench將證據置於首位。每個發佈的結果都鏈接到場景定義、公開的評分軸、驅動閉包的決策邏輯、確定性檢查以及脱敏的軌跡時間線。網站明確強調，這只是一個早期基線，而非模型排行榜。在導航上，網站目前設置了三個標籤頁：配方、配置文件和軌跡，方便用户瀏覽。

用户可以通過編碼代理快速上手。只需將預設的提示詞複製到Codex、Claude或其他編碼代理中，代理便會自動加載HermesBench技能並執行一個默認的場景配方。完整的捆綁運行需要用户選擇加入，因為它耗時更長且成本更高。項目團隊積極尋求早期反饋，尤其是關於設置流程的順暢性、評分結果是否出人意料、配方的真實性、配置文件的證據可信度以及脱敏處理的信任度。用户可以在GitHub上星標倉庫或提交問題。

HermesBench的覆蓋範圍從單個有價值的配方開始，允許用户在需要時選擇更廣泛的套件。目前，捆綁的目錄涵蓋了日常個人代理工作的多個領域：上下文管理、日曆、網絡、報告、通信、位置、旅行、財務、安全以及高級用户集成。其評分哲學強調“好的代理能安全地完成正確的任務”，並綜合考慮結果達成、證據真實性、運行時安全性、響應性、任務完成度和溝通質量六個維度。一個能力強大但不安全、安全但無幫助、正確但速度慢的配置都不會獲得高分。詳細的公式和實現機制在方法論文檔中，而網站則保持評分模型對用户和LLM代理的可讀性。