前沿語言模型智能化水平隨時間變化分析
Artificial Analysis 推出人工智能分析指數,獨立評估前沿語言模型的智能、速度、價格等指標,並跟蹤模型性能隨時間的變化。該指數包含10項評估,涵蓋推理、編碼、知識等多個維度。
人工智能分析平台 Artificial Analysis 近日更新了其人工智能分析指數(Artificial Analysis Intelligence Index),旨在獨立評估和追蹤前沿語言模型的智能水平隨時間的變化。該指數 v4.0 版本整合了10項不同維度的評估,包括 GDPval-AA(真實工作任務)、Terminal-Bench Hard(終端編碼)、SciCode(編程)、AA-LCR(長上下文推理)、AA-Omniscience(知識與幻覺)、IFBench(指令遵循)、Humanity's Last Exam(綜合推理)、GPQA Diamond(科學推理)、CritPt(物理推理)等。平台不僅提供智能排名,還結合速度、價格等實際應用指標,幫助用户選擇最適合其需求的模型。
據平台最新數據顯示,Anthropic 的 Claude Fable 5 模型在指數中位居首位,成為首個達到“神話級”的公開模型。此外,平台還新增了多項模型評估,包括 Google 的 Gemma 4、Cohere 的 North Mini Code 等。Artificial Analysis 還推出了編碼代理基準(Coding Agent Benchmarks)和代理推理基準(AA-AgentPerf),進一步擴展了評估範圍。用户可以通過數據遊樂場(Data Playground)自定義圖表,比較不同模型和提供商的表現。
除了核心指數,平台還提供個性化模型推薦器,根據用户對智能、速度和成本的優先級給出建議。Artificial Analysis 還發布了圖像與視頻排行榜、開放性指數(Openness Index)以及詳細的成本效率分析。例如,AA-Omniscience 基準專門評估知識可靠性和幻覺率,得分範圍從 -100 到 100,負分表示錯誤答案多於正確。GDPval-AA 則評估模型在現實工作中的代理性能,使用開源工具 Stirrup 進行測試。ITBench-AA 專注於 Kubernetes 事件的根本原因分析。這些多角度的評估共同構成了對前沿語言模型智能水平的全面畫像。