AI News HubLIVE
公開文章 14採集文章 16可信度 90刷新頻率 30 分鐘
健康狀態 自動暫停來源類型 研究原文權限 官方原文最近入庫 2026-05-23ID ai2-blog運行狀態 未啟用

Official Allen Institute for AI research feed; verify terms before displaying full body.

最新公開文章

介紹AIMIP:人工智慧天氣與氣候模型比較專案

AIMIP是一個新的開放基準和資料集,用於評估人工智慧氣候模型,顯示它們在歷史氣候指標上可以與傳統模型媲美甚至更優,但在長期變暖趨勢和未見過的氣候情景方面仍難以可靠地泛化。

  • AIMIP提供了一個共享基準和資料集,用於比較人工智慧氣候模型。
  • 人工智慧氣候模型在平均歷史氣候模式上表現出競爭力。
站內正文

為什麼Artificial Analysis使用Ai2的IFBench指令遵循評估

Artificial Analysis採用Ai2開放的IFBench評估,因為它能捕捉許多基準測試忽略的指令遵循能力,在複雜多指令任務上尤其有效。該基準測試由實際使用者對話驅動,且尚未飽和,是衡量模型真實效能的重要工具。

  • IFBench測試模型同時遵循多條指令的能力,反映真實使用者需求。
  • 該基準基於真實對話,覆蓋多種任務,較其他指令遵循評估更貼近實際。
站內正文

EMO:透過預訓練混合專家實現湧現模組化

EMO是一種新型混合專家模型,透過端到端預訓練使模組結構從資料中自然湧現,無需人工定義先驗。使用者可為特定任務僅選擇少量專家子集(12.5%),同時保持接近完整模型效能;當使用所有專家時,它仍是一個強大的通用模型。

  • EMO模型擁有128個專家,每次啟用8個,透過文件級路由約束實現專家模組化。
  • 僅使用12.5%的專家子集即可在任務上保持接近完整模型效能,標準MoE則嚴重退化。
站內正文

開放設計:Ai2 藉助 NSF OMAI 推出完全開放的人工智慧基礎設施

Ai2 將 NSF OMAI 計算資源上線,打造完全開放的 AI 研究生態系統,將國家基礎設施投資轉化為可複用的模型、資料、方法和工具,加速科學發現。

  • Ai2 獲得 NSF 和 NVIDIA 的 1.52 億美元投資,構建開放多模態 AI 基礎設施(NSF OMAI)。
  • 基礎設施基於 NVIDIA Blackwell Ultra 系統,強調開放性和可複用性,最大化每 GPU 小時的影響。
站內正文

MolmoAct 2:為真實世界工作的機器人打造的開放基礎

MolmoAct 2 是一個完全開放的機器人基礎模型,提供更快、更強的3D動作推理能力,適用於真實世界的機器人任務,同時釋出了一個大型雙臂運算元據集,供研究人員研究、復現和構建。

  • MolmoAct 2 在多個基準測試中優於專有模型,推理速度比前代快37倍。
  • 釋出了最大的開源雙臂運算元據集,包含720小時訓練演示。
站內正文

Ai2的未來:與臨時CEO Peter Clark的對話

臨時CEO Peter Clark探討了Ai2對開放科學的持續承諾、AI加速發展的背景下,以及研究所未來的重點方向,包括開放模型、科學發現、具身AI和環境AI。

  • Ai2在AI快速進步中堅守開放科學使命。
  • OLMo、Molmo和AutoDiscovery等專案展示了開放前沿模型和實際影響。
站內正文

AstaBench更新:新結果與行業採用

AstaBench最新更新增加了包括GPT-5.5在內的前沿模型結果,並突出了來自英國AISI、General Reasoning、Elicit、SciSpace、Distyl AI和EvoScientist等機構的日益增長的採用。

  • 測試了GPT-5.5、Claude Opus 4.7等前沿模型,共2400多個研究問題。
  • Claude Opus 4.7以58.0%的整體得分領先,但成本最高;GPT-5.5以52.9%得分和較低成本成為非Claude模型中的佼佼者。
站內正文

Molmo學會指向與操作

Ai2釋出了MolmoPoint和MolmoWeb,將Molmo家族從視覺理解擴充套件到視覺行動。MolmoPoint透過直接選擇輸入資料實現了更精準的指向,在多項基準測試中達到最優;MolmoWeb則是一個基於視覺的網頁代理,能夠透過截圖和滑鼠鍵盤操作自主完成網頁任務。兩者均開源,旨在推動視覺智慧的民主化。

  • MolmoPoint透過直接選擇輸入而非生成座標來指向,大幅提升精度和效率。
  • MolmoWeb僅憑截圖即可導航網頁,無需HTML或輔助樹,效能超越部分閉源模型。
站內正文

OlmPool:小型架構選擇如何疊加破壞長上下文擴充套件

OlmPool是一個包含26個模型的受控套件,展示了即使訓練資料和擴充套件方法保持不變,小型架構選擇也可能疊加起來使長上下文擴充套件變得更加困難。

  • 四種架構選擇(QK歸一化、分組查詢注意力、滑動視窗注意力、預訓練上下文長度)各自影響較小,但組合起來可導致長上下文效能下降高達47%。
  • 標準訓練指標無法預測長上下文效能;在標準評估中看似相同的模型在擴充套件後可能相差26分以上。
站內正文

引入OlmoEarth嵌入:從OlmoEarth Studio匯出自定義嵌入用於下游分析

OlmoEarth Studio現在允許使用者從OlmoEarth基礎模型計算並匯出嵌入向量,這些向量可用於相似性搜尋、少樣本分割、變化檢測和無監督探索。匯出格式為Cloud-Optimized GeoTIFF,支援多種引數配置。

  • OlmoEarth Studio新增功能:匯出自定義地球觀測嵌入。
  • 嵌入向量來自開源OlmoEarth模型,支援多種下游任務。
站內正文

為地球提供即時智慧的十年

2026年地球日,Ai2慶祝其透過EarthRanger、Skylight和OlmoEarth等工具提供即時環境保護情報的十年。從保護野生動物到打擊非法捕撈,這些AI驅動的平臺正在改變全球保護工作的格局。

  • EarthRanger已覆蓋95個國家900多個保護區,幫助協調野生動物保護,包括在泰國北部利用AI攝像頭減少人象衝突。
  • Skylight透過衛星影像即時檢測非法捕撈,阿根廷已成功遠端執法,開創海洋治理新模式。
站內正文

分開訓練,合併使用:基於混合專家模型的分模組後訓練

BAR(分支-適配-路由)是一種逐步訓練語言模型能力的方案:獨立訓練領域專家,將它們合併為一個混合專家模型,並能在不影響其他模組的情況下升級任一專家。

  • BAR透過獨立訓練領域專家並使用混合專家架構組合,實現了模組化後訓練。
  • 漸進式解凍共享引數至關重要:SFT階段解凍嵌入和語言模型頭,RL階段解凍注意力層。
站內正文

評估AI科學智慧體的基準測試

Ai2開發的兩個基準測試——ScienceWorld和DiscoveryWorld——揭示了即使是強大的AI科學智慧體在處理人類科學家日常解決的問題時也表現不佳。ScienceWorld測試基本實驗能力,DiscoveryWorld則評估端到端科學發現能力。目前頂級模型在ScienceWorld上得分約80%,在DiscoveryWorld困難任務中僅完成約20%,而人類科學家完成率約70%。

  • ScienceWorld和DiscoveryWorld分別測試AI智慧體在基礎實驗和端到端科學發現中的能力。
  • 頂級模型在ScienceWorld上得分約80%,但仍未完全解決四年級科學課程。
站內正文

WildDet3D:單張圖片實現開放世界3D檢測

Ai2釋出WildDet3D,這是一種從單張RGB影像進行開放詞彙3D目標檢測的模型,支援文本、點和框提示,可跨攝像頭和物體類別泛化,並能在可利用時融合深度訊號。同時釋出WildDet3D-Data資料集,包含超過100萬張影像和370萬個3D標註,覆蓋13K個類別。該模型在Omni3D基準上達到34.2 AP(文本提示),並在多個零樣本資料集上表現優異。

  • 支援文本、點點選和2D框等多種提示方式
  • 在Omni3D基準上達到34.2 AP(文本提示),比此前最佳提升5.8點
站內正文

全部來源