Ai2 Blog AI 新聞來源

公開文章 14採集文章 16可信度 90刷新頻率 30 分鐘

健康狀態 自動暫停來源類型研究原文權限 官方原文最近入庫 2026-05-23ID ai2-blog運行狀態 未啟用

Official Allen Institute for AI research feed; verify terms before displaying full body.

最新公開文章

介紹AIMIP：人工智能天氣與氣候模型比較項目

2026-05-13 16:00 UTC+8

AIMIP是一個新的開放基準和數據集，用於評估人工智能氣候模型，顯示它們在歷史氣候指標上可以與傳統模型媲美甚至更優，但在長期變暖趨勢和未見過的氣候情景方面仍難以可靠地泛化。

AIMIP提供了一個共享基準和數據集，用於比較人工智能氣候模型。
人工智能氣候模型在平均歷史氣候模式上表現出競爭力。

為什麼Artificial Analysis使用Ai2的IFBench指令遵循評估

2026-05-11 16:00 UTC+8

Artificial Analysis採用Ai2開放的IFBench評估，因為它能捕捉許多基準測試忽略的指令遵循能力，在複雜多指令任務上尤其有效。該基準測試由實際用户對話驅動，且尚未飽和，是衡量模型真實性能的重要工具。

IFBench測試模型同時遵循多條指令的能力，反映真實用户需求。
該基準基於真實對話，覆蓋多種任務，較其他指令遵循評估更貼近實際。

EMO：通過預訓練混合專家實現湧現模塊化

2026-05-08 16:00 UTC+8

EMO是一種新型混合專家模型，通過端到端預訓練使模塊結構從數據中自然湧現，無需人工定義先驗。用户可為特定任務僅選擇少量專家子集（12.5%），同時保持接近完整模型性能；當使用所有專家時，它仍是一個強大的通用模型。

EMO模型擁有128個專家，每次激活8個，通過文檔級路由約束實現專家模塊化。
僅使用12.5%的專家子集即可在任務上保持接近完整模型性能，標準MoE則嚴重退化。

開放設計：Ai2 藉助 NSF OMAI 推出完全開放的人工智能基礎設施

2026-05-07 16:00 UTC+8

Ai2 將 NSF OMAI 計算資源上線，打造完全開放的 AI 研究生態系統，將國家基礎設施投資轉化為可複用的模型、數據、方法和工具，加速科學發現。

Ai2 獲得 NSF 和 NVIDIA 的 1.52 億美元投資，構建開放多模態 AI 基礎設施（NSF OMAI）。
基礎設施基於 NVIDIA Blackwell Ultra 系統，強調開放性和可複用性，最大化每 GPU 小時的影響。

MolmoAct 2：為真實世界工作的機器人打造的開放基礎

2026-05-05 16:00 UTC+8

MolmoAct 2 是一個完全開放的機器人基礎模型，提供更快、更強的3D動作推理能力，適用於真實世界的機器人任務，同時發佈了一個大型雙臂操作數據集，供研究人員研究、復現和構建。

MolmoAct 2 在多個基準測試中優於專有模型，推理速度比前代快37倍。
發佈了最大的開源雙臂操作數據集，包含720小時訓練演示。

Ai2的未來：與臨時CEO Peter Clark的對話

2026-05-01 16:00 UTC+8

臨時CEO Peter Clark探討了Ai2對開放科學的持續承諾、AI加速發展的背景下，以及研究所未來的重點方向，包括開放模型、科學發現、具身AI和環境AI。

Ai2在AI快速進步中堅守開放科學使命。
OLMo、Molmo和AutoDiscovery等項目展示了開放前沿模型和實際影響。

AstaBench更新：新結果與行業採用

2026-04-30 16:00 UTC+8

AstaBench最新更新增加了包括GPT-5.5在內的前沿模型結果，並突出了來自英國AISI、General Reasoning、Elicit、SciSpace、Distyl AI和EvoScientist等機構的日益增長的採用。

測試了GPT-5.5、Claude Opus 4.7等前沿模型，共2400多個研究問題。
Claude Opus 4.7以58.0%的整體得分領先，但成本最高；GPT-5.5以52.9%得分和較低成本成為非Claude模型中的佼佼者。

Molmo學會指向與操作

2026-04-29 16:00 UTC+8

Ai2發佈了MolmoPoint和MolmoWeb，將Molmo家族從視覺理解擴展到視覺行動。MolmoPoint通過直接選擇輸入數據實現了更精準的指向，在多項基準測試中達到最優；MolmoWeb則是一個基於視覺的網頁代理，能夠通過截圖和鼠標鍵盤操作自主完成網頁任務。兩者均開源，旨在推動視覺智能的民主化。

MolmoPoint通過直接選擇輸入而非生成座標來指向，大幅提升精度和效率。
MolmoWeb僅憑截圖即可導航網頁，無需HTML或輔助樹，性能超越部分閉源模型。

OlmPool：小型架構選擇如何疊加破壞長上下文擴展

2026-04-23 16:00 UTC+8

OlmPool是一個包含26個模型的受控套件，展示了即使訓練數據和擴展方法保持不變，小型架構選擇也可能疊加起來使長上下文擴展變得更加困難。

四種架構選擇（QK歸一化、分組查詢注意力、滑動窗口注意力、預訓練上下文長度）各自影響較小，但組合起來可導致長上下文性能下降高達47%。
標準訓練指標無法預測長上下文性能；在標準評估中看似相同的模型在擴展後可能相差26分以上。

引入OlmoEarth嵌入：從OlmoEarth Studio導出自定義嵌入用於下游分析

2026-04-23 16:00 UTC+8

OlmoEarth Studio現在允許用户從OlmoEarth基礎模型計算並導出嵌入向量，這些向量可用於相似性搜索、少樣本分割、變化檢測和無監督探索。導出格式為Cloud-Optimized GeoTIFF，支持多種參數配置。

OlmoEarth Studio新增功能：導出自定義地球觀測嵌入。
嵌入向量來自開源OlmoEarth模型，支持多種下游任務。

為地球提供實時智能的十年

2026-04-22 16:00 UTC+8

2026年地球日，Ai2慶祝其通過EarthRanger、Skylight和OlmoEarth等工具提供實時環境保護情報的十年。從保護野生動物到打擊非法捕撈，這些AI驅動的平台正在改變全球保護工作的格局。

EarthRanger已覆蓋95個國家900多個保護區，幫助協調野生動物保護，包括在泰國北部利用AI攝像頭減少人象衝突。
Skylight通過衞星圖像實時檢測非法捕撈，阿根廷已成功遠程執法，開創海洋治理新模式。

分開訓練，合併使用：基於混合專家模型的分模塊後訓練

2026-04-20 16:00 UTC+8

BAR（分支-適配-路由）是一種逐步訓練語言模型能力的方案：獨立訓練領域專家，將它們合併為一個混合專家模型，並能在不影響其他模塊的情況下升級任一專家。

BAR通過獨立訓練領域專家並使用混合專家架構組合，實現了模塊化後訓練。
漸進式解凍共享參數至關重要：SFT階段解凍嵌入和語言模型頭，RL階段解凍注意力層。

評估AI科學智能體的基準測試

2026-04-13 16:00 UTC+8

Ai2開發的兩個基準測試——ScienceWorld和DiscoveryWorld——揭示了即使是強大的AI科學智能體在處理人類科學家日常解決的問題時也表現不佳。ScienceWorld測試基本實驗能力，DiscoveryWorld則評估端到端科學發現能力。目前頂級模型在ScienceWorld上得分約80%，在DiscoveryWorld困難任務中僅完成約20%，而人類科學家完成率約70%。

ScienceWorld和DiscoveryWorld分別測試AI智能體在基礎實驗和端到端科學發現中的能力。
頂級模型在ScienceWorld上得分約80%，但仍未完全解決四年級科學課程。

WildDet3D：單張圖片實現開放世界3D檢測

2026-04-07 16:00 UTC+8

Ai2發佈WildDet3D，這是一種從單張RGB圖像進行開放詞彙3D目標檢測的模型，支持文本、點和框提示，可跨攝像頭和物體類別泛化，並能在可利用時融合深度信號。同時發佈WildDet3D-Data數據集，包含超過100萬張圖像和370萬個3D標註，覆蓋13K個類別。該模型在Omni3D基準上達到34.2 AP（文本提示），並在多個零樣本數據集上表現優異。

支持文本、點點擊和2D框等多種提示方式
在Omni3D基準上達到34.2 AP（文本提示），比此前最佳提升5.8點

Ai2 Blog