AI News HubLIVE
站内改写

Show HN: HermesBench – 個人AIエージェント向けワークフロー信頼性評価

HermesBenchは、プロンプト、モデル、ツール、メモリなどを含む完全な個人AIエージェント設定の信頼性を評価するベンチマークです。現在、27のワークフローレシピでベースラインスコア78.2を達成しており、トレースは公開されています。このベンチマークはエビデンス駆動型のスコアリングを重視し、早期フィードバックを求めています。

HermesBenchは、個人AIエージェント向けのワークフロー信頼性ベンチマークであり、モデルだけではなく、プロンプト、モデルプロバイダ、ツール、Agentスキル、メモリ、ゲートウェイ動作、委任、安全性、レイテンシ、安定性を含む完全なHermes設定を評価します。現在の公開ベースラインは、27の個人エージェントレシピで78.2点を記録しており、各トレースは匿名化された状態で確認できます。合計9つのスコアリングスイートが用意されています。

信頼性を高めるため、すべての公開結果はシナリオ定義、公開スコア軸、ドライバクローズ判断、決定論的チェック、匿名化トレースタイムラインにリンクされています。サイトは、これが初期ベースラインであり、モデルリーダーボードではないことを明確にしています。現在のサイト構成は、レシピ、プロファイル、トレースの3つのタブからなります。

ユーザーはコーディングエージェントを通じて簡単に開始できます。プロンプトをCodexやClaudeにコピーすると、エージェントがHermesBenchスキルをロードし、デフォルトのシナリオレシピを実行します。フルバンドルの実行はオプトイン形式で、時間とコストがかかるためです。チームはセットアップの摩擦、スコアリングの意外性、レシピの現実性、プロファイルの証拠、および匿名化の信頼性に関する早期フィードバックを求めています。GitHubでリポジトリにスターを付けたり、Issueを開いたりすることが推奨されています。

カバレッジモデルは、1つのワークフローレシピから始まり、必要に応じてより広範なスイートにオプトインできます。カタログは、コンテキスト、カレンダー、Web、レポート、コミュニケーション、ロケーション、旅行、ファイナンス、セーフティ、パワーユーザー統合といった日常的な個人エージェント業務をカバーしています。スコアリング哲学は「良いエージェントは正しいことを安全に完了する」というもので、結果到達、エビデンス/真実性、ランタイム/スコープ安全性、応答性、タスク達成、コミュニケーション品質の6軸で評価します。バランスの悪いスコアはペナルティの対象となります。詳細な計算式は方法論ドキュメントに記載され、サイトはユーザーとLLMエージェントにとって読みやすい形を保っています。