2026-05-31 07:03 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Show HN: HermesBench – 个人AI代理的工作流可靠性评估

HermesBench是一个评估完整个人AI代理配置（包括提示、模型、工具、记忆等）可靠性的基准。当前基线得分为78.2，涵盖27个工作流配方，并提供可检查的轨迹。该基准强调证据驱动的评分，并积极寻求早期反馈。

来源Hacker News AI作者: verkyyi26

HermesBench是一个专为个人AI代理设计的工作流可靠性基准，其核心理念是评估完整的代理配置，而不仅仅是底层模型。这意味着它考察的是提示词、模型提供商、工具调用、Agent技能、记忆机制、网关行为、任务委派、安全性、延迟和稳定性等全方位的要素。目前，该基准的公开基线得分为78.2，基于27个个人代理工作流配方，并且所有执行轨迹都经过脱敏处理，供用户深入检查。此外，共有9个评分套件覆盖了不同的应用场景。

为了建立信任，HermesBench将证据置于首位。每个发布的结果都链接到场景定义、公开的评分轴、驱动闭包的决策逻辑、确定性检查以及脱敏的轨迹时间线。网站明确强调，这只是一个早期基线，而非模型排行榜。在导航上，网站目前设置了三个标签页：配方、配置文件和轨迹，方便用户浏览。

用户可以通过编码代理快速上手。只需将预设的提示词复制到Codex、Claude或其他编码代理中，代理便会自动加载HermesBench技能并执行一个默认的场景配方。完整的捆绑运行需要用户选择加入，因为它耗时更长且成本更高。项目团队积极寻求早期反馈，尤其是关于设置流程的顺畅性、评分结果是否出人意料、配方的真实性、配置文件的证据可信度以及脱敏处理的信任度。用户可以在GitHub上星标仓库或提交问题。

HermesBench的覆盖范围从单个有价值的配方开始，允许用户在需要时选择更广泛的套件。目前，捆绑的目录涵盖了日常个人代理工作的多个领域：上下文管理、日历、网络、报告、通信、位置、旅行、财务、安全以及高级用户集成。其评分哲学强调“好的代理能安全地完成正确的任务”，并综合考虑结果达成、证据真实性、运行时安全性、响应性、任务完成度和沟通质量六个维度。一个能力强大但不安全、安全但无帮助、正确但速度慢的配置都不会获得高分。详细的公式和实现机制在方法论文档中，而网站则保持评分模型对用户和LLM代理的可读性。