介绍AIMIP:人工智能天气与气候模型比较项目
AIMIP是一个新的开放基准和数据集,用于评估人工智能气候模型,显示它们在历史气候指标上可以与传统模型媲美甚至更优,但在长期变暖趋势和未见过的气候情景方面仍难以可靠地泛化。
- AIMIP提供了一个共享基准和数据集,用于比较人工智能气候模型。
- 人工智能气候模型在平均历史气候模式上表现出竞争力。
Official Allen Institute for AI research feed; verify terms before displaying full body.
AIMIP是一个新的开放基准和数据集,用于评估人工智能气候模型,显示它们在历史气候指标上可以与传统模型媲美甚至更优,但在长期变暖趋势和未见过的气候情景方面仍难以可靠地泛化。
Artificial Analysis采用Ai2开放的IFBench评估,因为它能捕捉许多基准测试忽略的指令遵循能力,在复杂多指令任务上尤其有效。该基准测试由实际用户对话驱动,且尚未饱和,是衡量模型真实性能的重要工具。
EMO是一种新型混合专家模型,通过端到端预训练使模块结构从数据中自然涌现,无需人工定义先验。用户可为特定任务仅选择少量专家子集(12.5%),同时保持接近完整模型性能;当使用所有专家时,它仍是一个强大的通用模型。
Ai2 将 NSF OMAI 计算资源上线,打造完全开放的 AI 研究生态系统,将国家基础设施投资转化为可复用的模型、数据、方法和工具,加速科学发现。
MolmoAct 2 是一个完全开放的机器人基础模型,提供更快、更强的3D动作推理能力,适用于真实世界的机器人任务,同时发布了一个大型双臂操作数据集,供研究人员研究、复现和构建。
临时CEO Peter Clark探讨了Ai2对开放科学的持续承诺、AI加速发展的背景下,以及研究所未来的重点方向,包括开放模型、科学发现、具身AI和环境AI。
AstaBench最新更新增加了包括GPT-5.5在内的前沿模型结果,并突出了来自英国AISI、General Reasoning、Elicit、SciSpace、Distyl AI和EvoScientist等机构的日益增长的采用。
Ai2发布了MolmoPoint和MolmoWeb,将Molmo家族从视觉理解扩展到视觉行动。MolmoPoint通过直接选择输入数据实现了更精准的指向,在多项基准测试中达到最优;MolmoWeb则是一个基于视觉的网页代理,能够通过截图和鼠标键盘操作自主完成网页任务。两者均开源,旨在推动视觉智能的民主化。
OlmPool是一个包含26个模型的受控套件,展示了即使训练数据和扩展方法保持不变,小型架构选择也可能叠加起来使长上下文扩展变得更加困难。
OlmoEarth Studio现在允许用户从OlmoEarth基础模型计算并导出嵌入向量,这些向量可用于相似性搜索、少样本分割、变化检测和无监督探索。导出格式为Cloud-Optimized GeoTIFF,支持多种参数配置。
2026年地球日,Ai2庆祝其通过EarthRanger、Skylight和OlmoEarth等工具提供实时环境保护情报的十年。从保护野生动物到打击非法捕捞,这些AI驱动的平台正在改变全球保护工作的格局。
BAR(分支-适配-路由)是一种逐步训练语言模型能力的方案:独立训练领域专家,将它们合并为一个混合专家模型,并能在不影响其他模块的情况下升级任一专家。
Ai2开发的两个基准测试——ScienceWorld和DiscoveryWorld——揭示了即使是强大的AI科学智能体在处理人类科学家日常解决的问题时也表现不佳。ScienceWorld测试基本实验能力,DiscoveryWorld则评估端到端科学发现能力。目前顶级模型在ScienceWorld上得分约80%,在DiscoveryWorld困难任务中仅完成约20%,而人类科学家完成率约70%。
Ai2发布WildDet3D,这是一种从单张RGB图像进行开放词汇3D目标检测的模型,支持文本、点和框提示,可跨摄像头和物体类别泛化,并能在可利用时融合深度信号。同时发布WildDet3D-Data数据集,包含超过100万张图像和370万个3D标注,覆盖13K个类别。该模型在Omni3D基准上达到34.2 AP(文本提示),并在多个零样本数据集上表现优异。