AI News HubLIVE
站内改写2 分钟阅读

新论文:迈向AI智能体可靠性的科学

研究者提出了一个衡量AI智能体可靠性的框架,将可靠性分解为12个维度,并发现尽管能力提升迅速,但可靠性进展缓慢。该研究呼吁行业将可靠性作为独立维度进行优化。

来源AI Snake Oil作者: Sayash Kapoor

一篇由普林斯顿大学Stephan Rabanser、Sayash Kapoor和Arvind Narayanan等人撰写的新论文,对AI智能体的可靠性进行了系统性的量化研究。该研究借鉴了核能和航空等安全关键工程领域的经验,将可靠性分解为12个不同的指标,涵盖四个主要维度:一致性(同一任务多次执行的结果是否稳定)、鲁棒性(面对条件变化或故障时是否仍能正常运作)、可预测性(智能体是否知道自己何时可能出错)以及安全性(错误是否可控而非灾难性)。

研究团队测试了来自OpenAI、Google和Anthropic的14个模型,覆盖18个月内的版本迭代,使用通用助手基准GAIA和客户服务模拟基准TauBench进行评估。每个任务重复五次,并注入工具故障和环境变化以测试鲁棒性。总计执行了500次基准测试。

结果显示,在18个月间,模型的准确性显著提升,但可靠性改善甚微。所有三大提供商的模型表现相近,表明这是一个行业范围的局限性。具体而言,一致性得分在30%到75%之间波动,许多模型在重复相同任务时失败;鲁棒性方面,模型能处理技术故障,但指令语义相同仅措辞变化时,性能大幅下降;可预测性是最弱的维度,大多数模型无法有效区分正确和错误的预测;安全性方面,较新模型在避免违反约束上有所改进,但财务错误等常见问题依然存在。

论文指出,当前AI行业缺乏衡量可靠性的有效工具,甚至缺乏统一的定义。研究者呼吁,在报告准确性之外,应同时提供可靠性概况。对于部署者,建议明确区分自动化和增强应用:自动化工具(如无人值守工作流、客户交互机器人)需满足可靠性阈值,而增强工具(如编程助手)因有人类监督,可靠性要求可适当放宽。

尽管研究存在局限性,如维度定义的主观性,以及未来可能通过更高的准确性弥补可靠性不足,但作者认为,在自主操作的高风险场景中,需要99.9%至99.999%的准确率才能忽略可靠性问题,而当前基于LLM的智能体远未达到这一水平。论文还提出,能力-可靠性差距可能是AI智能体经济影响缓慢的原因之一。要推动广泛部署,需要针对可靠性的各个维度进行专门优化,而非单纯依赖模型规模扩大或通用训练方法。该研究是“AI智能体评估科学”系列的一部分,相关代码和交互式仪表盘已公开。