前沿语言模型智能化水平随时间变化分析
Artificial Analysis 推出人工智能分析指数,独立评估前沿语言模型的智能、速度、价格等指标,并跟踪模型性能随时间的变化。该指数包含10项评估,涵盖推理、编码、知识等多个维度。
人工智能分析平台 Artificial Analysis 近日更新了其人工智能分析指数(Artificial Analysis Intelligence Index),旨在独立评估和追踪前沿语言模型的智能水平随时间的变化。该指数 v4.0 版本整合了10项不同维度的评估,包括 GDPval-AA(真实工作任务)、Terminal-Bench Hard(终端编码)、SciCode(编程)、AA-LCR(长上下文推理)、AA-Omniscience(知识与幻觉)、IFBench(指令遵循)、Humanity's Last Exam(综合推理)、GPQA Diamond(科学推理)、CritPt(物理推理)等。平台不仅提供智能排名,还结合速度、价格等实际应用指标,帮助用户选择最适合其需求的模型。
据平台最新数据显示,Anthropic 的 Claude Fable 5 模型在指数中位居首位,成为首个达到“神话级”的公开模型。此外,平台还新增了多项模型评估,包括 Google 的 Gemma 4、Cohere 的 North Mini Code 等。Artificial Analysis 还推出了编码代理基准(Coding Agent Benchmarks)和代理推理基准(AA-AgentPerf),进一步扩展了评估范围。用户可以通过数据游乐场(Data Playground)自定义图表,比较不同模型和提供商的表现。
除了核心指数,平台还提供个性化模型推荐器,根据用户对智能、速度和成本的优先级给出建议。Artificial Analysis 还发布了图像与视频排行榜、开放性指数(Openness Index)以及详细的成本效率分析。例如,AA-Omniscience 基准专门评估知识可靠性和幻觉率,得分范围从 -100 到 100,负分表示错误答案多于正确。GDPval-AA 则评估模型在现实工作中的代理性能,使用开源工具 Stirrup 进行测试。ITBench-AA 专注于 Kubernetes 事件的根本原因分析。这些多角度的评估共同构成了对前沿语言模型智能水平的全面画像。