介紹AIMIP:人工智能天氣與氣候模型比較項目
AIMIP是一個新的開放基準和數據集,用於評估人工智能氣候模型,顯示它們在歷史氣候指標上可以與傳統模型媲美甚至更優,但在長期變暖趨勢和未見過的氣候情景方面仍難以可靠地泛化。
- AIMIP提供了一個共享基準和數據集,用於比較人工智能氣候模型。
- 人工智能氣候模型在平均歷史氣候模式上表現出競爭力。
Official Allen Institute for AI research feed; verify terms before displaying full body.
AIMIP是一個新的開放基準和數據集,用於評估人工智能氣候模型,顯示它們在歷史氣候指標上可以與傳統模型媲美甚至更優,但在長期變暖趨勢和未見過的氣候情景方面仍難以可靠地泛化。
Artificial Analysis採用Ai2開放的IFBench評估,因為它能捕捉許多基準測試忽略的指令遵循能力,在複雜多指令任務上尤其有效。該基準測試由實際用户對話驅動,且尚未飽和,是衡量模型真實性能的重要工具。
EMO是一種新型混合專家模型,通過端到端預訓練使模塊結構從數據中自然湧現,無需人工定義先驗。用户可為特定任務僅選擇少量專家子集(12.5%),同時保持接近完整模型性能;當使用所有專家時,它仍是一個強大的通用模型。
Ai2 將 NSF OMAI 計算資源上線,打造完全開放的 AI 研究生態系統,將國家基礎設施投資轉化為可複用的模型、數據、方法和工具,加速科學發現。
MolmoAct 2 是一個完全開放的機器人基礎模型,提供更快、更強的3D動作推理能力,適用於真實世界的機器人任務,同時發佈了一個大型雙臂操作數據集,供研究人員研究、復現和構建。
臨時CEO Peter Clark探討了Ai2對開放科學的持續承諾、AI加速發展的背景下,以及研究所未來的重點方向,包括開放模型、科學發現、具身AI和環境AI。
AstaBench最新更新增加了包括GPT-5.5在內的前沿模型結果,並突出了來自英國AISI、General Reasoning、Elicit、SciSpace、Distyl AI和EvoScientist等機構的日益增長的採用。
Ai2發佈了MolmoPoint和MolmoWeb,將Molmo家族從視覺理解擴展到視覺行動。MolmoPoint通過直接選擇輸入數據實現了更精準的指向,在多項基準測試中達到最優;MolmoWeb則是一個基於視覺的網頁代理,能夠通過截圖和鼠標鍵盤操作自主完成網頁任務。兩者均開源,旨在推動視覺智能的民主化。
OlmPool是一個包含26個模型的受控套件,展示了即使訓練數據和擴展方法保持不變,小型架構選擇也可能疊加起來使長上下文擴展變得更加困難。
OlmoEarth Studio現在允許用户從OlmoEarth基礎模型計算並導出嵌入向量,這些向量可用於相似性搜索、少樣本分割、變化檢測和無監督探索。導出格式為Cloud-Optimized GeoTIFF,支持多種參數配置。
2026年地球日,Ai2慶祝其通過EarthRanger、Skylight和OlmoEarth等工具提供實時環境保護情報的十年。從保護野生動物到打擊非法捕撈,這些AI驅動的平台正在改變全球保護工作的格局。
BAR(分支-適配-路由)是一種逐步訓練語言模型能力的方案:獨立訓練領域專家,將它們合併為一個混合專家模型,並能在不影響其他模塊的情況下升級任一專家。
Ai2開發的兩個基準測試——ScienceWorld和DiscoveryWorld——揭示了即使是強大的AI科學智能體在處理人類科學家日常解決的問題時也表現不佳。ScienceWorld測試基本實驗能力,DiscoveryWorld則評估端到端科學發現能力。目前頂級模型在ScienceWorld上得分約80%,在DiscoveryWorld困難任務中僅完成約20%,而人類科學家完成率約70%。
Ai2發佈WildDet3D,這是一種從單張RGB圖像進行開放詞彙3D目標檢測的模型,支持文本、點和框提示,可跨攝像頭和物體類別泛化,並能在可利用時融合深度信號。同時發佈WildDet3D-Data數據集,包含超過100萬張圖像和370萬個3D標註,覆蓋13K個類別。該模型在Omni3D基準上達到34.2 AP(文本提示),並在多個零樣本數據集上表現優異。