AI News HubLIVE
站内改写

Show HN: HermesBench – 个人AI代理的工作流可靠性评估

HermesBench是一个评估完整个人AI代理配置(包括提示、模型、工具、记忆等)可靠性的基准。当前基线得分为78.2,涵盖27个工作流配方,并提供可检查的轨迹。该基准强调证据驱动的评分,并积极寻求早期反馈。

HermesBench是一个专为个人AI代理设计的工作流可靠性基准,其核心理念是评估完整的代理配置,而不仅仅是底层模型。这意味着它考察的是提示词、模型提供商、工具调用、Agent技能、记忆机制、网关行为、任务委派、安全性、延迟和稳定性等全方位的要素。目前,该基准的公开基线得分为78.2,基于27个个人代理工作流配方,并且所有执行轨迹都经过脱敏处理,供用户深入检查。此外,共有9个评分套件覆盖了不同的应用场景。

为了建立信任,HermesBench将证据置于首位。每个发布的结果都链接到场景定义、公开的评分轴、驱动闭包的决策逻辑、确定性检查以及脱敏的轨迹时间线。网站明确强调,这只是一个早期基线,而非模型排行榜。在导航上,网站目前设置了三个标签页:配方、配置文件和轨迹,方便用户浏览。

用户可以通过编码代理快速上手。只需将预设的提示词复制到Codex、Claude或其他编码代理中,代理便会自动加载HermesBench技能并执行一个默认的场景配方。完整的捆绑运行需要用户选择加入,因为它耗时更长且成本更高。项目团队积极寻求早期反馈,尤其是关于设置流程的顺畅性、评分结果是否出人意料、配方的真实性、配置文件的证据可信度以及脱敏处理的信任度。用户可以在GitHub上星标仓库或提交问题。

HermesBench的覆盖范围从单个有价值的配方开始,允许用户在需要时选择更广泛的套件。目前,捆绑的目录涵盖了日常个人代理工作的多个领域:上下文管理、日历、网络、报告、通信、位置、旅行、财务、安全以及高级用户集成。其评分哲学强调“好的代理能安全地完成正确的任务”,并综合考虑结果达成、证据真实性、运行时安全性、响应性、任务完成度和沟通质量六个维度。一个能力强大但不安全、安全但无帮助、正确但速度慢的配置都不会获得高分。详细的公式和实现机制在方法论文档中,而网站则保持评分模型对用户和LLM代理的可读性。