Ai2 Blog AI 新闻来源

公开文章 14采集文章 16可信度 90刷新频率 30 分钟

健康状态 自动暂停来源类型研究原文权限 官方原文最近入库 2026-05-23ID ai2-blog运行状态 未启用

Official Allen Institute for AI research feed; verify terms before displaying full body.

最新公开文章

介绍AIMIP：人工智能天气与气候模型比较项目

2026-05-13 16:00 UTC+8

AIMIP是一个新的开放基准和数据集，用于评估人工智能气候模型，显示它们在历史气候指标上可以与传统模型媲美甚至更优，但在长期变暖趋势和未见过的气候情景方面仍难以可靠地泛化。

AIMIP提供了一个共享基准和数据集，用于比较人工智能气候模型。
人工智能气候模型在平均历史气候模式上表现出竞争力。

为什么Artificial Analysis使用Ai2的IFBench指令遵循评估

2026-05-11 16:00 UTC+8

Artificial Analysis采用Ai2开放的IFBench评估，因为它能捕捉许多基准测试忽略的指令遵循能力，在复杂多指令任务上尤其有效。该基准测试由实际用户对话驱动，且尚未饱和，是衡量模型真实性能的重要工具。

IFBench测试模型同时遵循多条指令的能力，反映真实用户需求。
该基准基于真实对话，覆盖多种任务，较其他指令遵循评估更贴近实际。

EMO：通过预训练混合专家实现涌现模块化

2026-05-08 16:00 UTC+8

EMO是一种新型混合专家模型，通过端到端预训练使模块结构从数据中自然涌现，无需人工定义先验。用户可为特定任务仅选择少量专家子集（12.5%），同时保持接近完整模型性能；当使用所有专家时，它仍是一个强大的通用模型。

EMO模型拥有128个专家，每次激活8个，通过文档级路由约束实现专家模块化。
仅使用12.5%的专家子集即可在任务上保持接近完整模型性能，标准MoE则严重退化。

开放设计：Ai2 借助 NSF OMAI 推出完全开放的人工智能基础设施

2026-05-07 16:00 UTC+8

Ai2 将 NSF OMAI 计算资源上线，打造完全开放的 AI 研究生态系统，将国家基础设施投资转化为可复用的模型、数据、方法和工具，加速科学发现。

Ai2 获得 NSF 和 NVIDIA 的 1.52 亿美元投资，构建开放多模态 AI 基础设施（NSF OMAI）。
基础设施基于 NVIDIA Blackwell Ultra 系统，强调开放性和可复用性，最大化每 GPU 小时的影响。

MolmoAct 2：为真实世界工作的机器人打造的开放基础

2026-05-05 16:00 UTC+8

MolmoAct 2 是一个完全开放的机器人基础模型，提供更快、更强的3D动作推理能力，适用于真实世界的机器人任务，同时发布了一个大型双臂操作数据集，供研究人员研究、复现和构建。

MolmoAct 2 在多个基准测试中优于专有模型，推理速度比前代快37倍。
发布了最大的开源双臂操作数据集，包含720小时训练演示。

Ai2的未来：与临时CEO Peter Clark的对话

2026-05-01 16:00 UTC+8

临时CEO Peter Clark探讨了Ai2对开放科学的持续承诺、AI加速发展的背景下，以及研究所未来的重点方向，包括开放模型、科学发现、具身AI和环境AI。

Ai2在AI快速进步中坚守开放科学使命。
OLMo、Molmo和AutoDiscovery等项目展示了开放前沿模型和实际影响。

AstaBench更新：新结果与行业采用

2026-04-30 16:00 UTC+8

AstaBench最新更新增加了包括GPT-5.5在内的前沿模型结果，并突出了来自英国AISI、General Reasoning、Elicit、SciSpace、Distyl AI和EvoScientist等机构的日益增长的采用。

测试了GPT-5.5、Claude Opus 4.7等前沿模型，共2400多个研究问题。
Claude Opus 4.7以58.0%的整体得分领先，但成本最高；GPT-5.5以52.9%得分和较低成本成为非Claude模型中的佼佼者。

Molmo学会指向与操作

2026-04-29 16:00 UTC+8

Ai2发布了MolmoPoint和MolmoWeb，将Molmo家族从视觉理解扩展到视觉行动。MolmoPoint通过直接选择输入数据实现了更精准的指向，在多项基准测试中达到最优；MolmoWeb则是一个基于视觉的网页代理，能够通过截图和鼠标键盘操作自主完成网页任务。两者均开源，旨在推动视觉智能的民主化。

MolmoPoint通过直接选择输入而非生成坐标来指向，大幅提升精度和效率。
MolmoWeb仅凭截图即可导航网页，无需HTML或辅助树，性能超越部分闭源模型。

OlmPool：小型架构选择如何叠加破坏长上下文扩展

2026-04-23 16:00 UTC+8

OlmPool是一个包含26个模型的受控套件，展示了即使训练数据和扩展方法保持不变，小型架构选择也可能叠加起来使长上下文扩展变得更加困难。

四种架构选择（QK归一化、分组查询注意力、滑动窗口注意力、预训练上下文长度）各自影响较小，但组合起来可导致长上下文性能下降高达47%。
标准训练指标无法预测长上下文性能；在标准评估中看似相同的模型在扩展后可能相差26分以上。

引入OlmoEarth嵌入：从OlmoEarth Studio导出自定义嵌入用于下游分析

2026-04-23 16:00 UTC+8

OlmoEarth Studio现在允许用户从OlmoEarth基础模型计算并导出嵌入向量，这些向量可用于相似性搜索、少样本分割、变化检测和无监督探索。导出格式为Cloud-Optimized GeoTIFF，支持多种参数配置。

OlmoEarth Studio新增功能：导出自定义地球观测嵌入。
嵌入向量来自开源OlmoEarth模型，支持多种下游任务。

为地球提供实时智能的十年

2026-04-22 16:00 UTC+8

2026年地球日，Ai2庆祝其通过EarthRanger、Skylight和OlmoEarth等工具提供实时环境保护情报的十年。从保护野生动物到打击非法捕捞，这些AI驱动的平台正在改变全球保护工作的格局。

EarthRanger已覆盖95个国家900多个保护区，帮助协调野生动物保护，包括在泰国北部利用AI摄像头减少人象冲突。
Skylight通过卫星图像实时检测非法捕捞，阿根廷已成功远程执法，开创海洋治理新模式。

分开训练，合并使用：基于混合专家模型的分模块后训练

2026-04-20 16:00 UTC+8

BAR（分支-适配-路由）是一种逐步训练语言模型能力的方案：独立训练领域专家，将它们合并为一个混合专家模型，并能在不影响其他模块的情况下升级任一专家。

BAR通过独立训练领域专家并使用混合专家架构组合，实现了模块化后训练。
渐进式解冻共享参数至关重要：SFT阶段解冻嵌入和语言模型头，RL阶段解冻注意力层。

评估AI科学智能体的基准测试

2026-04-13 16:00 UTC+8

Ai2开发的两个基准测试——ScienceWorld和DiscoveryWorld——揭示了即使是强大的AI科学智能体在处理人类科学家日常解决的问题时也表现不佳。ScienceWorld测试基本实验能力，DiscoveryWorld则评估端到端科学发现能力。目前顶级模型在ScienceWorld上得分约80%，在DiscoveryWorld困难任务中仅完成约20%，而人类科学家完成率约70%。

ScienceWorld和DiscoveryWorld分别测试AI智能体在基础实验和端到端科学发现中的能力。
顶级模型在ScienceWorld上得分约80%，但仍未完全解决四年级科学课程。

WildDet3D：单张图片实现开放世界3D检测

2026-04-07 16:00 UTC+8

Ai2发布WildDet3D，这是一种从单张RGB图像进行开放词汇3D目标检测的模型，支持文本、点和框提示，可跨摄像头和物体类别泛化，并能在可利用时融合深度信号。同时发布WildDet3D-Data数据集，包含超过100万张图像和370万个3D标注，覆盖13K个类别。该模型在Omni3D基准上达到34.2 AP（文本提示），并在多个零样本数据集上表现优异。

支持文本、点点击和2D框等多种提示方式
在Omni3D基准上达到34.2 AP（文本提示），比此前最佳提升5.8点

Ai2 Blog