2026-05-31 07:03 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Show HN: HermesBench – 個人AI代理的工作流可靠性評估

HermesBench是一個評估完整個人AI代理配置（包括提示、模型、工具、記憶等）可靠性的基準。當前基線得分為78.2，涵蓋27個工作流配方，並提供可檢查的軌跡。該基準強調證據驅動的評分，並積極尋求早期反饋。

來源Hacker News AI作者: verkyyi26

HermesBench是一個專為個人AI代理設計的工作流可靠性基準，其核心理念是評估完整的代理配置，而不僅僅是底層模型。這意味著它考察的是提示詞、模型提供商、工具呼叫、Agent技能、記憶機制、閘道器行為、任務委派、安全性、延遲和穩定性等全方位的要素。目前，該基準的公開基線得分為78.2，基於27個個人代理工作流配方，並且所有執行軌跡都經過脫敏處理，供使用者深入檢查。此外，共有9個評分套件覆蓋了不同的應用場景。

為了建立信任，HermesBench將證據置於首位。每個釋出的結果都連結到場景定義、公開的評分軸、驅動閉包的決策邏輯、確定性檢查以及脫敏的軌跡時間線。網站明確強調，這只是一個早期基線，而非模型排行榜。在導航上，網站目前設定了三個標籤頁：配方、配置檔案和軌跡，方便使用者瀏覽。

使用者可以透過編碼代理快速上手。只需將預設的提示詞複製到Codex、Claude或其他編碼代理中，代理便會自動載入HermesBench技能並執行一個預設的場景配方。完整的捆綁執行需要使用者選擇加入，因為它耗時更長且成本更高。專案團隊積極尋求早期反饋，尤其是關於設定流程的順暢性、評分結果是否出人意料、配方的真實性、配置檔案的證據可信度以及脫敏處理的信任度。使用者可以在GitHub上星標倉庫或提交問題。

HermesBench的覆蓋範圍從單個有價值的配方開始，允許使用者在需要時選擇更廣泛的套件。目前，捆綁的目錄涵蓋了日常個人代理工作的多個領域：上下文管理、日曆、網路、報告、通訊、位置、旅行、財務、安全以及高階使用者整合。其評分哲學強調“好的代理能安全地完成正確的任務”，並綜合考慮結果達成、證據真實性、執行時安全性、響應性、任務完成度和溝通質量六個維度。一個能力強大但不安全、安全但無幫助、正確但速度慢的配置都不會獲得高分。詳細的公式和實現機制在方法論文件中，而網站則保持評分模型對使用者和LLM代理的可讀性。