2026-06-14站内改写1 分钟阅读更新: 2026-06-14

前沿语言模型智能化水平随时间变化分析

Artificial Analysis 推出人工智能分析指数，独立评估前沿语言模型的智能、速度、价格等指标，并跟踪模型性能随时间的变化。该指数包含10项评估，涵盖推理、编码、知识等多个维度。

人工智能分析平台 Artificial Analysis 近日更新了其人工智能分析指数（Artificial Analysis Intelligence Index），旨在独立评估和追踪前沿语言模型的智能水平随时间的变化。该指数 v4.0 版本整合了10项不同维度的评估，包括 GDPval-AA（真实工作任务）、Terminal-Bench Hard（终端编码）、SciCode（编程）、AA-LCR（长上下文推理）、AA-Omniscience（知识与幻觉）、IFBench（指令遵循）、Humanity's Last Exam（综合推理）、GPQA Diamond（科学推理）、CritPt（物理推理）等。平台不仅提供智能排名，还结合速度、价格等实际应用指标，帮助用户选择最适合其需求的模型。

据平台最新数据显示，Anthropic 的 Claude Fable 5 模型在指数中位居首位，成为首个达到“神话级”的公开模型。此外，平台还新增了多项模型评估，包括 Google 的 Gemma 4、Cohere 的 North Mini Code 等。Artificial Analysis 还推出了编码代理基准（Coding Agent Benchmarks）和代理推理基准（AA-AgentPerf），进一步扩展了评估范围。用户可以通过数据游乐场（Data Playground）自定义图表，比较不同模型和提供商的表现。

除了核心指数，平台还提供个性化模型推荐器，根据用户对智能、速度和成本的优先级给出建议。Artificial Analysis 还发布了图像与视频排行榜、开放性指数（Openness Index）以及详细的成本效率分析。例如，AA-Omniscience 基准专门评估知识可靠性和幻觉率，得分范围从 -100 到 100，负分表示错误答案多于正确。GDPval-AA 则评估模型在现实工作中的代理性能，使用开源工具 Stirrup 进行测试。ITBench-AA 专注于 Kubernetes 事件的根本原因分析。这些多角度的评估共同构成了对前沿语言模型智能水平的全面画像。