AI News HubLIVE
公开文章 14采集文章 16可信度 90刷新频率 30 分钟
健康状态 自动暂停来源类型 研究原文权限 官方原文最近入库 2026-05-23ID ai2-blog运行状态 未启用

Official Allen Institute for AI research feed; verify terms before displaying full body.

最新公开文章

介绍AIMIP:人工智能天气与气候模型比较项目

AIMIP是一个新的开放基准和数据集,用于评估人工智能气候模型,显示它们在历史气候指标上可以与传统模型媲美甚至更优,但在长期变暖趋势和未见过的气候情景方面仍难以可靠地泛化。

  • AIMIP提供了一个共享基准和数据集,用于比较人工智能气候模型。
  • 人工智能气候模型在平均历史气候模式上表现出竞争力。
站内正文

为什么Artificial Analysis使用Ai2的IFBench指令遵循评估

Artificial Analysis采用Ai2开放的IFBench评估,因为它能捕捉许多基准测试忽略的指令遵循能力,在复杂多指令任务上尤其有效。该基准测试由实际用户对话驱动,且尚未饱和,是衡量模型真实性能的重要工具。

  • IFBench测试模型同时遵循多条指令的能力,反映真实用户需求。
  • 该基准基于真实对话,覆盖多种任务,较其他指令遵循评估更贴近实际。
站内正文

EMO:通过预训练混合专家实现涌现模块化

EMO是一种新型混合专家模型,通过端到端预训练使模块结构从数据中自然涌现,无需人工定义先验。用户可为特定任务仅选择少量专家子集(12.5%),同时保持接近完整模型性能;当使用所有专家时,它仍是一个强大的通用模型。

  • EMO模型拥有128个专家,每次激活8个,通过文档级路由约束实现专家模块化。
  • 仅使用12.5%的专家子集即可在任务上保持接近完整模型性能,标准MoE则严重退化。
站内正文

开放设计:Ai2 借助 NSF OMAI 推出完全开放的人工智能基础设施

Ai2 将 NSF OMAI 计算资源上线,打造完全开放的 AI 研究生态系统,将国家基础设施投资转化为可复用的模型、数据、方法和工具,加速科学发现。

  • Ai2 获得 NSF 和 NVIDIA 的 1.52 亿美元投资,构建开放多模态 AI 基础设施(NSF OMAI)。
  • 基础设施基于 NVIDIA Blackwell Ultra 系统,强调开放性和可复用性,最大化每 GPU 小时的影响。
站内正文

MolmoAct 2:为真实世界工作的机器人打造的开放基础

MolmoAct 2 是一个完全开放的机器人基础模型,提供更快、更强的3D动作推理能力,适用于真实世界的机器人任务,同时发布了一个大型双臂操作数据集,供研究人员研究、复现和构建。

  • MolmoAct 2 在多个基准测试中优于专有模型,推理速度比前代快37倍。
  • 发布了最大的开源双臂操作数据集,包含720小时训练演示。
站内正文

Ai2的未来:与临时CEO Peter Clark的对话

临时CEO Peter Clark探讨了Ai2对开放科学的持续承诺、AI加速发展的背景下,以及研究所未来的重点方向,包括开放模型、科学发现、具身AI和环境AI。

  • Ai2在AI快速进步中坚守开放科学使命。
  • OLMo、Molmo和AutoDiscovery等项目展示了开放前沿模型和实际影响。
站内正文

AstaBench更新:新结果与行业采用

AstaBench最新更新增加了包括GPT-5.5在内的前沿模型结果,并突出了来自英国AISI、General Reasoning、Elicit、SciSpace、Distyl AI和EvoScientist等机构的日益增长的采用。

  • 测试了GPT-5.5、Claude Opus 4.7等前沿模型,共2400多个研究问题。
  • Claude Opus 4.7以58.0%的整体得分领先,但成本最高;GPT-5.5以52.9%得分和较低成本成为非Claude模型中的佼佼者。
站内正文

Molmo学会指向与操作

Ai2发布了MolmoPoint和MolmoWeb,将Molmo家族从视觉理解扩展到视觉行动。MolmoPoint通过直接选择输入数据实现了更精准的指向,在多项基准测试中达到最优;MolmoWeb则是一个基于视觉的网页代理,能够通过截图和鼠标键盘操作自主完成网页任务。两者均开源,旨在推动视觉智能的民主化。

  • MolmoPoint通过直接选择输入而非生成坐标来指向,大幅提升精度和效率。
  • MolmoWeb仅凭截图即可导航网页,无需HTML或辅助树,性能超越部分闭源模型。
站内正文

OlmPool:小型架构选择如何叠加破坏长上下文扩展

OlmPool是一个包含26个模型的受控套件,展示了即使训练数据和扩展方法保持不变,小型架构选择也可能叠加起来使长上下文扩展变得更加困难。

  • 四种架构选择(QK归一化、分组查询注意力、滑动窗口注意力、预训练上下文长度)各自影响较小,但组合起来可导致长上下文性能下降高达47%。
  • 标准训练指标无法预测长上下文性能;在标准评估中看似相同的模型在扩展后可能相差26分以上。
站内正文

引入OlmoEarth嵌入:从OlmoEarth Studio导出自定义嵌入用于下游分析

OlmoEarth Studio现在允许用户从OlmoEarth基础模型计算并导出嵌入向量,这些向量可用于相似性搜索、少样本分割、变化检测和无监督探索。导出格式为Cloud-Optimized GeoTIFF,支持多种参数配置。

  • OlmoEarth Studio新增功能:导出自定义地球观测嵌入。
  • 嵌入向量来自开源OlmoEarth模型,支持多种下游任务。
站内正文

为地球提供实时智能的十年

2026年地球日,Ai2庆祝其通过EarthRanger、Skylight和OlmoEarth等工具提供实时环境保护情报的十年。从保护野生动物到打击非法捕捞,这些AI驱动的平台正在改变全球保护工作的格局。

  • EarthRanger已覆盖95个国家900多个保护区,帮助协调野生动物保护,包括在泰国北部利用AI摄像头减少人象冲突。
  • Skylight通过卫星图像实时检测非法捕捞,阿根廷已成功远程执法,开创海洋治理新模式。
站内正文

分开训练,合并使用:基于混合专家模型的分模块后训练

BAR(分支-适配-路由)是一种逐步训练语言模型能力的方案:独立训练领域专家,将它们合并为一个混合专家模型,并能在不影响其他模块的情况下升级任一专家。

  • BAR通过独立训练领域专家并使用混合专家架构组合,实现了模块化后训练。
  • 渐进式解冻共享参数至关重要:SFT阶段解冻嵌入和语言模型头,RL阶段解冻注意力层。
站内正文

评估AI科学智能体的基准测试

Ai2开发的两个基准测试——ScienceWorld和DiscoveryWorld——揭示了即使是强大的AI科学智能体在处理人类科学家日常解决的问题时也表现不佳。ScienceWorld测试基本实验能力,DiscoveryWorld则评估端到端科学发现能力。目前顶级模型在ScienceWorld上得分约80%,在DiscoveryWorld困难任务中仅完成约20%,而人类科学家完成率约70%。

  • ScienceWorld和DiscoveryWorld分别测试AI智能体在基础实验和端到端科学发现中的能力。
  • 顶级模型在ScienceWorld上得分约80%,但仍未完全解决四年级科学课程。
站内正文

WildDet3D:单张图片实现开放世界3D检测

Ai2发布WildDet3D,这是一种从单张RGB图像进行开放词汇3D目标检测的模型,支持文本、点和框提示,可跨摄像头和物体类别泛化,并能在可利用时融合深度信号。同时发布WildDet3D-Data数据集,包含超过100万张图像和370万个3D标注,覆盖13K个类别。该模型在Omni3D基准上达到34.2 AP(文本提示),并在多个零样本数据集上表现优异。

  • 支持文本、点点击和2D框等多种提示方式
  • 在Omni3D基准上达到34.2 AP(文本提示),比此前最佳提升5.8点
站内正文

全部来源