Show HN: HermesBench – 個人AI代理的工作流可靠性評估
HermesBench是一個評估完整個人AI代理配置(包括提示、模型、工具、記憶等)可靠性的基準。當前基線得分為78.2,涵蓋27個工作流配方,並提供可檢查的軌跡。該基準強調證據驅動的評分,並積極尋求早期反饋。
HermesBench是一個專為個人AI代理設計的工作流可靠性基準,其核心理念是評估完整的代理配置,而不僅僅是底層模型。這意味著它考察的是提示詞、模型提供商、工具呼叫、Agent技能、記憶機制、閘道器行為、任務委派、安全性、延遲和穩定性等全方位的要素。目前,該基準的公開基線得分為78.2,基於27個個人代理工作流配方,並且所有執行軌跡都經過脫敏處理,供使用者深入檢查。此外,共有9個評分套件覆蓋了不同的應用場景。
為了建立信任,HermesBench將證據置於首位。每個釋出的結果都連結到場景定義、公開的評分軸、驅動閉包的決策邏輯、確定性檢查以及脫敏的軌跡時間線。網站明確強調,這只是一個早期基線,而非模型排行榜。在導航上,網站目前設定了三個標籤頁:配方、配置檔案和軌跡,方便使用者瀏覽。
使用者可以透過編碼代理快速上手。只需將預設的提示詞複製到Codex、Claude或其他編碼代理中,代理便會自動載入HermesBench技能並執行一個預設的場景配方。完整的捆綁執行需要使用者選擇加入,因為它耗時更長且成本更高。專案團隊積極尋求早期反饋,尤其是關於設定流程的順暢性、評分結果是否出人意料、配方的真實性、配置檔案的證據可信度以及脫敏處理的信任度。使用者可以在GitHub上星標倉庫或提交問題。
HermesBench的覆蓋範圍從單個有價值的配方開始,允許使用者在需要時選擇更廣泛的套件。目前,捆綁的目錄涵蓋了日常個人代理工作的多個領域:上下文管理、日曆、網路、報告、通訊、位置、旅行、財務、安全以及高階使用者整合。其評分哲學強調“好的代理能安全地完成正確的任務”,並綜合考慮結果達成、證據真實性、執行時安全性、響應性、任務完成度和溝通質量六個維度。一個能力強大但不安全、安全但無幫助、正確但速度慢的配置都不會獲得高分。詳細的公式和實現機制在方法論文件中,而網站則保持評分模型對使用者和LLM代理的可讀性。