Show HN: HermesBench – 個人AI代理的工作流可靠性評估
HermesBench是一個評估完整個人AI代理配置(包括提示、模型、工具、記憶等)可靠性的基準。當前基線得分為78.2,涵蓋27個工作流配方,並提供可檢查的軌跡。該基準強調證據驅動的評分,並積極尋求早期反饋。
HermesBench是一個專為個人AI代理設計的工作流可靠性基準,其核心理念是評估完整的代理配置,而不僅僅是底層模型。這意味着它考察的是提示詞、模型提供商、工具調用、Agent技能、記憶機制、網關行為、任務委派、安全性、延遲和穩定性等全方位的要素。目前,該基準的公開基線得分為78.2,基於27個個人代理工作流配方,並且所有執行軌跡都經過脱敏處理,供用户深入檢查。此外,共有9個評分套件覆蓋了不同的應用場景。
為了建立信任,HermesBench將證據置於首位。每個發佈的結果都鏈接到場景定義、公開的評分軸、驅動閉包的決策邏輯、確定性檢查以及脱敏的軌跡時間線。網站明確強調,這只是一個早期基線,而非模型排行榜。在導航上,網站目前設置了三個標籤頁:配方、配置文件和軌跡,方便用户瀏覽。
用户可以通過編碼代理快速上手。只需將預設的提示詞複製到Codex、Claude或其他編碼代理中,代理便會自動加載HermesBench技能並執行一個默認的場景配方。完整的捆綁運行需要用户選擇加入,因為它耗時更長且成本更高。項目團隊積極尋求早期反饋,尤其是關於設置流程的順暢性、評分結果是否出人意料、配方的真實性、配置文件的證據可信度以及脱敏處理的信任度。用户可以在GitHub上星標倉庫或提交問題。
HermesBench的覆蓋範圍從單個有價值的配方開始,允許用户在需要時選擇更廣泛的套件。目前,捆綁的目錄涵蓋了日常個人代理工作的多個領域:上下文管理、日曆、網絡、報告、通信、位置、旅行、財務、安全以及高級用户集成。其評分哲學強調“好的代理能安全地完成正確的任務”,並綜合考慮結果達成、證據真實性、運行時安全性、響應性、任務完成度和溝通質量六個維度。一個能力強大但不安全、安全但無幫助、正確但速度慢的配置都不會獲得高分。詳細的公式和實現機制在方法論文檔中,而網站則保持評分模型對用户和LLM代理的可讀性。