2026-05-31 08:03 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

Show HN: HermesBench – 個人AIエージェント向けワークフロー信頼性評価

HermesBenchは、プロンプト、モデル、ツール、メモリなどを含む完全な個人AIエージェント設定の信頼性を評価するベンチマークです。現在、27のワークフローレシピでベースラインスコア78.2を達成しており、トレースは公開されています。このベンチマークはエビデンス駆動型のスコアリングを重視し、早期フィードバックを求めています。

ソースHacker News AI著者: verkyyi26

記事インテリジェンス

エンジニア中級

要点

HermesBenchはモデルだけでなく、完全なHermes設定を評価します。
現在の公開ベースラインスコアは27のレシピで78.2、トレースは検査可能です。
ベンチマークは信頼性優先で、結果、真実性、安全性、応答性、タスク達成、コミュニケーション品質をスコアリングします。
セットアップやスコアリングに関する早期フィードバックを積極的に募集しています。

重要な理由

このニュースが重要なのは、HermesBenchはモデルだけでなく、完全なHermes設定を評価しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

HermesBenchは、個人AIエージェント向けのワークフロー信頼性ベンチマークであり、モデルだけではなく、プロンプト、モデルプロバイダ、ツール、Agentスキル、メモリ、ゲートウェイ動作、委任、安全性、レイテンシ、安定性を含む完全なHermes設定を評価します。現在の公開ベースラインは、27の個人エージェントレシピで78.2点を記録しており、各トレースは匿名化された状態で確認できます。合計9つのスコアリングスイートが用意されています。

信頼性を高めるため、すべての公開結果はシナリオ定義、公開スコア軸、ドライバクローズ判断、決定論的チェック、匿名化トレースタイムラインにリンクされています。サイトは、これが初期ベースラインであり、モデルリーダーボードではないことを明確にしています。現在のサイト構成は、レシピ、プロファイル、トレースの3つのタブからなります。

ユーザーはコーディングエージェントを通じて簡単に開始できます。プロンプトをCodexやClaudeにコピーすると、エージェントがHermesBenchスキルをロードし、デフォルトのシナリオレシピを実行します。フルバンドルの実行はオプトイン形式で、時間とコストがかかるためです。チームはセットアップの摩擦、スコアリングの意外性、レシピの現実性、プロファイルの証拠、および匿名化の信頼性に関する早期フィードバックを求めています。GitHubでリポジトリにスターを付けたり、Issueを開いたりすることが推奨されています。

カバレッジモデルは、1つのワークフローレシピから始まり、必要に応じてより広範なスイートにオプトインできます。カタログは、コンテキスト、カレンダー、Web、レポート、コミュニケーション、ロケーション、旅行、ファイナンス、セーフティ、パワーユーザー統合といった日常的な個人エージェント業務をカバーしています。スコアリング哲学は「良いエージェントは正しいことを安全に完了する」というもので、結果到達、エビデンス/真実性、ランタイム/スコープ安全性、応答性、タスク達成、コミュニケーション品質の6軸で評価します。バランスの悪いスコアはペナルティの対象となります。詳細な計算式は方法論ドキュメントに記載され、サイトはユーザーとLLMエージェントにとって読みやすい形を保っています。