Ai2 Blog AI ニュースソース

公開記事 14収集記事 16信頼度 90更新頻度 30 分

稼働状態 自動停止ソース種別研究全文利用権限 公式全文最終取り込み 2026-05-23ID ai2-blog状態無効

Official Allen Institute for AI research feed; verify terms before displaying full body.

最新公開記事

AIMIPの紹介：AI気象・気候モデル相互比較プロジェクト

2026-05-13 17:00 UTC+9

AIMIPは、AI気候モデルを評価するための新しいオープンベンチマークとデータセットであり、従来モデルと同等またはそれ以上の性能を一部の歴史的気候指標で示す一方、長期の温暖化傾向や未知の気候シナリオへの信頼性ある一般化には依然として課題があることを示しています。

AIMIPは、AI気候モデルを比較するための共有ベンチマークとデータセットを提供します。
AI気候モデルは、平均的な歴史的気候パターンにおいて競争力のある性能を示します。

Artificial AnalysisがAi2のIFBench命令追従評価を採用する理由

2026-05-11 17:00 UTC+9

Artificial Analysisは、多くのベンチマークが見逃す複雑なユーザー指示への追従能力を捉えるため、Ai2のオープンなIFBench評価を採用しています。このベンチマークは実際のユーザー会話に基づき、まだ飽和しておらず、モデルの実用的な性能を測定する重要なツールです。

IFBenchは複数の制約を同時に守るモデルの能力をテストし、実際のユーザーニーズを反映。
実ユーザーの会話から構築され、多様なタスクをカバーし、従来の命令追従評価より実用的。

EMO：事前学習による混合エキスパートの創発的モジュール性

2026-05-08 17:00 UTC+9

EMOは、モジュール構造がデータから自動的に現れるように訓練された新しい混合エキスパートモデルです。ユーザーはタスクに特化した少数のエキスパートのみを選択でき、ほぼフルモデルの性能を維持できます。全エキスパートを使用すれば、強力な汎用モデルとしても機能します。

EMOは128のエキスパートを持ち、各トークンは8つをアクティブ化。文書レベルのルーティング制約によりモジュール化を実現。
エキスパートのわずか12.5%でタスク性能をほぼ維持し、標準MoEでは大幅に低下。

オープンな設計：Ai2がNSF OMAIで完全オープンなAIインフラを稼働

2026-05-07 17:00 UTC+9

Ai2はNSF OMAIの計算リソースをオンライン化し、完全にオープンなAI研究エコシステムを実現。国家のインフラ投資を再利用可能なモデル、データ、手法、ツールに転換し、科学的発見を加速します。

Ai2はNSFとNVIDIAから1億5200万ドルの助成を受け、NVIDIA Blackwell Ultra搭載のNSF OMAIを構築。
オープン性と再利用性を重視し、GPU時間あたりの影響を最大化。

MolmoAct 2：現実世界で動作するロボットのためのオープン基盤

2026-05-05 17:00 UTC+9

MolmoAct 2 は完全にオープンなロボティクス基礎モデルであり、より高速で強力な3D動作推論を実現し、新たな両腕操作データセットとともに研究者が研究・再現・拡張できるように提供されます。

MolmoAct 2 は業界ベンチマークで専有モデルを上回り、前世代比最大37倍高速化。
720時間以上のデモを含む最大のオープンソース両腕操作データセットを公開。

Ai2の次なる展望：暫定CEOピーター・クラークとの対話

2026-05-01 17:00 UTC+9

暫定CEOピーター・クラークが、急速なAI進歩の中でのAi2のオープンサイエンスへのコミットメント、主要プロジェクト、NSF OMAIイニシアチブ、そしてAIによる科学、身体化AI、環境AIへの将来の方向性について語ります。

Ai2は急速なAI進歩の中でもオープンサイエンスの使命を堅持。
OLMo、Molmo、AutoDiscoveryなどのプロジェクトは、オープンな最先端モデルと実世界への影響を示す。

AstaBenchアップデート：新たな結果と業界での採用

2026-04-30 17:00 UTC+9

AstaBenchの最新アップデートでは、GPT-5.5を含むフロンティアモデルの新たな結果が追加され、英国AISI、General Reasoning、Elicit、SciSpace、Distyl AI、EvoScientistなどからの採用が拡大していることを強調しています。

GPT-5.5やClaude Opus 4.7などのフロンティアモデルを2,400以上の研究課題でテスト。
Claude Opus 4.7が全体58.0%でトップだがコストは最高；GPT-5.5は52.9%で低コスト、非Claudeモデルをリード。

Ai2はMolmoPointとMolmoWebを発表し、Molmoファミリーを視覚理解から視覚行動へと拡張しました。MolmoPointは入力データを直接選択することで、より正確なポインティングを実現し、複数のベンチマークで最高性能を達成。MolmoWebはスクリーンショットのみでウェブを操作できるビジュアルエージェントで、多くのオープン・クローズドモデルを凌駕します。両方ともオープンソースです。

MolmoPointは座標を出力する代わりに入力を直接選択することでポインティングを改善し、精度と効率が大幅に向上。
MolmoWebはHTMLに依存せずスクリーンショットのみでウェブ操作を行い、GPT-4oベースのエージェントをも上回る性能。

OlmPool：小さなアーキテクチャ選択が積み重なり長コンテキスト拡張を損なう仕組み

2026-04-23 17:00 UTC+9

OlmPoolは26のモデルからなる制御されたスイートで、トレーニングデータと拡張レシピを一定に保っても、小さなアーキテクチャ選択が積み重なり長コンテキスト拡張をはるかに困難にすることを示しています。

4つのアーキテクチャ選択（QK正規化、グループ化クエリアテンション、スライディングウィンドウアテンション、事前学習コンテキスト長）はそれぞれ単独では影響が小さいが、組み合わさると長コンテキスト性能が最大47%低下する。
標準的なトレーニング指標では長コンテキスト性能を予測できず、標準評価でほぼ同一に見えるモデルが拡張後に26ポイント以上乖離することがある。

OlmoEarth埋め込みの導入：OlmoEarth Studioからのカスタム埋め込みエクスポートによるダウンストリーム分析

2026-04-23 17:00 UTC+9

OlmoEarth Studioは、OlmoEarth基盤モデルから埋め込みベクトルを計算・エクスポートできるようになりました。これらは類似性検索、少数ショットマッピング、変化検出、教師なし探索などのタスクに使用できます。

OlmoEarth Studioの新機能：カスタム地球観測埋め込みのエクスポート。
埋め込みはオープンソースのOlmoEarthモデルからのコンパクトな数値表現。

地球のためのリアルタイムインテリジェンスの10年

2026-04-22 17:00 UTC+9

2026年のアースデイに、Ai2はEarthRanger、Skylight、OlmoEarthなどのツールを通じて地球保護のためのリアルタイム情報を提供してきた10年を祝います。野生生物の保護から違法漁業の取り締まりまで、これらのAI駆動型プラットフォームは世界中の保護活動を変革しています。

EarthRangerは95カ国900以上の保護区をカバーし、タイ北部ではAIカメラトラップを活用して人間とゾウの衝突を軽減しています。
Skylightは衛星画像を使用して違法漁業をリアルタイムで検出し、アルゼンチンは遠隔での法執行に成功し、海洋ガバナンスの先例を築きました。

個別に学習し、統合する：混合エキスパートを用いたモジュラー型ポストトレーニング

2026-04-20 17:00 UTC+9

BAR（Branch-Adapt-Route）は、言語モデルの能力を段階的に学習する手法です。ドメインエキスパートを独立に訓練し、混合エキスパートモデルに統合し、他のエキスパートに影響を与えずに任意のエキスパートをアップグレードできます。

BARは独立したドメインエキスパートを訓練し、MoEアーキテクチャで統合することでモジュラー型のポストトレーニングを実現。
共有パラメータの段階的な凍結解除が重要：SFTでは埋め込みと言語モデルヘッド、RLではアテンション層。

科学発見のためのAIエージェントの評価

2026-04-13 17:00 UTC+9

Ai2が開発した2つのベンチマーク（ScienceWorldとDiscoveryWorld）は、非常に強力なAI科学エージェントでも人間の科学者が日常的に解決する問題に苦戦することを明らかにしました。ScienceWorldは基本的な実験能力を、DiscoveryWorldはエンドツーエンドの科学的発見能力をテストします。現在のトップモデルはScienceWorldで約80%、DiscoveryWorldの困難なタスクでは約20%の成功率であり、人間の科学者は約70%です。

ScienceWorldとDiscoveryWorldは、AIエージェントの基礎実験能力と科学的発見プロセスを評価します。
トップモデルはScienceWorldで約80%のスコアだが、小学4年生レベルの科学カリキュラムを完全には解決していません。

WildDet3D：単一画像からのオープンワールド3D検出

2026-04-07 17:00 UTC+9

Ai2がWildDet3Dをリリース。これは単一のRGB画像からオープンボキャブラリーで3D物体検出を行うモデルで、テキスト、ポイント、ボックスプロンプトをサポートし、カメラや物体カテゴリを横断して汎化し、利用可能な場合は深度信号を統合します。同時に、100万枚以上の画像と370万の3Dアノテーション（13Kカテゴリ）を含むWildDet3D-Dataデータセットも公開。Omni3Dベンチマークで34.2 AP（テキストプロンプト）を達成し、複数のゼロショットデータセットで優れた性能を示しました。

テキスト、ポイントクリック、2Dバウンディングボックスなど多様なプロンプトモダリティをサポート
Omni3Dでテキストプロンプトにより34.2 APを達成、従来最高を5.8ポイント上回る

Ai2 Blog