介紹AIMIP:人工智慧天氣與氣候模型比較專案
AIMIP是一個新的開放基準和資料集,用於評估人工智慧氣候模型,顯示它們在歷史氣候指標上可以與傳統模型媲美甚至更優,但在長期變暖趨勢和未見過的氣候情景方面仍難以可靠地泛化。
- AIMIP提供了一個共享基準和資料集,用於比較人工智慧氣候模型。
- 人工智慧氣候模型在平均歷史氣候模式上表現出競爭力。
Official Allen Institute for AI research feed; verify terms before displaying full body.
AIMIP是一個新的開放基準和資料集,用於評估人工智慧氣候模型,顯示它們在歷史氣候指標上可以與傳統模型媲美甚至更優,但在長期變暖趨勢和未見過的氣候情景方面仍難以可靠地泛化。
Artificial Analysis採用Ai2開放的IFBench評估,因為它能捕捉許多基準測試忽略的指令遵循能力,在複雜多指令任務上尤其有效。該基準測試由實際使用者對話驅動,且尚未飽和,是衡量模型真實效能的重要工具。
EMO是一種新型混合專家模型,透過端到端預訓練使模組結構從資料中自然湧現,無需人工定義先驗。使用者可為特定任務僅選擇少量專家子集(12.5%),同時保持接近完整模型效能;當使用所有專家時,它仍是一個強大的通用模型。
Ai2 將 NSF OMAI 計算資源上線,打造完全開放的 AI 研究生態系統,將國家基礎設施投資轉化為可複用的模型、資料、方法和工具,加速科學發現。
MolmoAct 2 是一個完全開放的機器人基礎模型,提供更快、更強的3D動作推理能力,適用於真實世界的機器人任務,同時釋出了一個大型雙臂運算元據集,供研究人員研究、復現和構建。
臨時CEO Peter Clark探討了Ai2對開放科學的持續承諾、AI加速發展的背景下,以及研究所未來的重點方向,包括開放模型、科學發現、具身AI和環境AI。
AstaBench最新更新增加了包括GPT-5.5在內的前沿模型結果,並突出了來自英國AISI、General Reasoning、Elicit、SciSpace、Distyl AI和EvoScientist等機構的日益增長的採用。
Ai2釋出了MolmoPoint和MolmoWeb,將Molmo家族從視覺理解擴充套件到視覺行動。MolmoPoint透過直接選擇輸入資料實現了更精準的指向,在多項基準測試中達到最優;MolmoWeb則是一個基於視覺的網頁代理,能夠透過截圖和滑鼠鍵盤操作自主完成網頁任務。兩者均開源,旨在推動視覺智慧的民主化。
OlmPool是一個包含26個模型的受控套件,展示了即使訓練資料和擴充套件方法保持不變,小型架構選擇也可能疊加起來使長上下文擴充套件變得更加困難。
OlmoEarth Studio現在允許使用者從OlmoEarth基礎模型計算並匯出嵌入向量,這些向量可用於相似性搜尋、少樣本分割、變化檢測和無監督探索。匯出格式為Cloud-Optimized GeoTIFF,支援多種引數配置。
2026年地球日,Ai2慶祝其透過EarthRanger、Skylight和OlmoEarth等工具提供即時環境保護情報的十年。從保護野生動物到打擊非法捕撈,這些AI驅動的平臺正在改變全球保護工作的格局。
BAR(分支-適配-路由)是一種逐步訓練語言模型能力的方案:獨立訓練領域專家,將它們合併為一個混合專家模型,並能在不影響其他模組的情況下升級任一專家。
Ai2開發的兩個基準測試——ScienceWorld和DiscoveryWorld——揭示了即使是強大的AI科學智慧體在處理人類科學家日常解決的問題時也表現不佳。ScienceWorld測試基本實驗能力,DiscoveryWorld則評估端到端科學發現能力。目前頂級模型在ScienceWorld上得分約80%,在DiscoveryWorld困難任務中僅完成約20%,而人類科學家完成率約70%。
Ai2釋出WildDet3D,這是一種從單張RGB影像進行開放詞彙3D目標檢測的模型,支援文本、點和框提示,可跨攝像頭和物體類別泛化,並能在可利用時融合深度訊號。同時釋出WildDet3D-Data資料集,包含超過100萬張影像和370萬個3D標註,覆蓋13K個類別。該模型在Omni3D基準上達到34.2 AP(文本提示),並在多個零樣本資料集上表現優異。