2026-06-14站内改写1 分鐘閱讀更新: 2026-06-14

前沿語言模型智能化水平隨時間變化分析

Artificial Analysis 推出人工智能分析指數，獨立評估前沿語言模型的智能、速度、價格等指標，並跟蹤模型性能隨時間的變化。該指數包含10項評估，涵蓋推理、編碼、知識等多個維度。

人工智能分析平台 Artificial Analysis 近日更新了其人工智能分析指數（Artificial Analysis Intelligence Index），旨在獨立評估和追蹤前沿語言模型的智能水平隨時間的變化。該指數 v4.0 版本整合了10項不同維度的評估，包括 GDPval-AA（真實工作任務）、Terminal-Bench Hard（終端編碼）、SciCode（編程）、AA-LCR（長上下文推理）、AA-Omniscience（知識與幻覺）、IFBench（指令遵循）、Humanity's Last Exam（綜合推理）、GPQA Diamond（科學推理）、CritPt（物理推理）等。平台不僅提供智能排名，還結合速度、價格等實際應用指標，幫助用户選擇最適合其需求的模型。

據平台最新數據顯示，Anthropic 的 Claude Fable 5 模型在指數中位居首位，成為首個達到“神話級”的公開模型。此外，平台還新增了多項模型評估，包括 Google 的 Gemma 4、Cohere 的 North Mini Code 等。Artificial Analysis 還推出了編碼代理基準（Coding Agent Benchmarks）和代理推理基準（AA-AgentPerf），進一步擴展了評估範圍。用户可以通過數據遊樂場（Data Playground）自定義圖表，比較不同模型和提供商的表現。

除了核心指數，平台還提供個性化模型推薦器，根據用户對智能、速度和成本的優先級給出建議。Artificial Analysis 還發布了圖像與視頻排行榜、開放性指數（Openness Index）以及詳細的成本效率分析。例如，AA-Omniscience 基準專門評估知識可靠性和幻覺率，得分範圍從 -100 到 100，負分表示錯誤答案多於正確。GDPval-AA 則評估模型在現實工作中的代理性能，使用開源工具 Stirrup 進行測試。ITBench-AA 專注於 Kubernetes 事件的根本原因分析。這些多角度的評估共同構成了對前沿語言模型智能水平的全面畫像。