2026-02-24 21:07 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

新论文：迈向AI智能体可靠性的科学

研究者提出了一个衡量AI智能体可靠性的框架，将可靠性分解为12个维度，并发现尽管能力提升迅速，但可靠性进展缓慢。该研究呼吁行业将可靠性作为独立维度进行优化。

来源AI Snake Oil作者: Sayash Kapoor

一篇由普林斯顿大学Stephan Rabanser、Sayash Kapoor和Arvind Narayanan等人撰写的新论文，对AI智能体的可靠性进行了系统性的量化研究。该研究借鉴了核能和航空等安全关键工程领域的经验，将可靠性分解为12个不同的指标，涵盖四个主要维度：一致性（同一任务多次执行的结果是否稳定）、鲁棒性（面对条件变化或故障时是否仍能正常运作）、可预测性（智能体是否知道自己何时可能出错）以及安全性（错误是否可控而非灾难性）。

研究团队测试了来自OpenAI、Google和Anthropic的14个模型，覆盖18个月内的版本迭代，使用通用助手基准GAIA和客户服务模拟基准TauBench进行评估。每个任务重复五次，并注入工具故障和环境变化以测试鲁棒性。总计执行了500次基准测试。

结果显示，在18个月间，模型的准确性显著提升，但可靠性改善甚微。所有三大提供商的模型表现相近，表明这是一个行业范围的局限性。具体而言，一致性得分在30%到75%之间波动，许多模型在重复相同任务时失败；鲁棒性方面，模型能处理技术故障，但指令语义相同仅措辞变化时，性能大幅下降；可预测性是最弱的维度，大多数模型无法有效区分正确和错误的预测；安全性方面，较新模型在避免违反约束上有所改进，但财务错误等常见问题依然存在。

论文指出，当前AI行业缺乏衡量可靠性的有效工具，甚至缺乏统一的定义。研究者呼吁，在报告准确性之外，应同时提供可靠性概况。对于部署者，建议明确区分自动化和增强应用：自动化工具（如无人值守工作流、客户交互机器人）需满足可靠性阈值，而增强工具（如编程助手）因有人类监督，可靠性要求可适当放宽。

尽管研究存在局限性，如维度定义的主观性，以及未来可能通过更高的准确性弥补可靠性不足，但作者认为，在自主操作的高风险场景中，需要99.9%至99.999%的准确率才能忽略可靠性问题，而当前基于LLM的智能体远未达到这一水平。论文还提出，能力-可靠性差距可能是AI智能体经济影响缓慢的原因之一。要推动广泛部署，需要针对可靠性的各个维度进行专门优化，而非单纯依赖模型规模扩大或通用训练方法。该研究是“AI智能体评估科学”系列的一部分，相关代码和交互式仪表盘已公开。