2026-06-02 12:28 UTC+9サイト内リライト8 分で読了更新: 2026-06-30 22:03 UTC+9

[AINews] NVIDIA Cosmos 3、Nemotron 3 Ultra、RTX Spark

NVIDIA は、統合マルチモーダル世界モデル Cosmos 3、効率的な LLM Nemotron 3 Ultra、パーソナル AI スーパーチップ RTX Spark を発表。さらに、MiniMax M3、Qwen3.7-Plus、JetBrains Mellum2 などのオープンモデルがエージェント分野を推進。

ソースLatent Space

記事インテリジェンス

エンジニア上級

要点

NVIDIA の Cosmos 3 は Mixture-of-Transformers アーキテクチャを採用し、言語、画像、動画、音声、動作を統合。Nemotron 3 Ultra は 550B パラメータのオープンウェイトモデルで、米国 SOTA を達成し、最大 300+ tok/s の高速推論を実現。RTX Spark は Microsoft と協力したパーソナル AI コンピュータで、Grace+Blackwell チップを搭載し 1 petaflop FP4 の性能。
MiniMax M3 は 1M コンテキストを持つオープンウェイトのマルチモーダルエージェントモデルとして発表。Alibaba の Qwen3.7-Plus は GUI/CLI を統合したハイブリッドエージェント。JetBrains Mellum2 は超低遅延の開発者向けワークフロー向け 12B MoE モデル。
AI スタックはエージェントランタイムへ移行中：Perplexity の「Search as Code」、Google Managed Agents、LangChain Deep Agents、メモリ/セキュリティプリミティブが主要製品になりつつある。
OpenAI は Codex を AWS Bedrock に拡張。Claude Code は並列サブエージェントのバグにより運用インシデントが発生。ハードウェア面では、NVIDIA の RTX Spark と Lambda によるフォトニクススイッチの採用が、ローカルおよびデータセンターの AI トレンドを浮き彫りにしている。

重要な理由

このニュースが重要なのは、NVIDIA の Cosmos 3 は Mixture-of-Transformers アーキテクチャを採用し、言語、画像、動画、音声、動作を統合。Nemotron 3 Ultra は 550B パラメータのオープンウェイトモデルで、米国 SOTA を達成し、最大 300+ tok/s の高速推論を実現。RTX Spark は Microsoft と協力したパーソナル AI コンピュータで、Grace+Blackwell チップを搭載し 1 petaflop FP4 の性能ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

今日のポッドキャストのゲストは、1年以上前にNVIDIA Cosmosのリーダーを務め、ビデオ生成と世界モデルのトレーニングについて議論しました。時宜を得て、Cosmos 3が本日リリースされました。これは、言語、画像、動画、音声、動作をMixture-of-Transformersアーキテクチャに統合し、自己回帰推論器と拡散生成器を組み合わせたものです。ベースのNano（16B：8B推論タワー+8B生成タワー）、Super（64B：32B推論タワー+32B生成タワー）モデル、およびテキストから画像、画像から動画へのSuperファインチューンが提供され、これらはNano Banana 2に次ぐ、新しいオープンウェイト画像生成・動画生成モデルのSOTAとなりました。台湾のComputexで、JensenはNemotron 3 Ultraも発表しました。これは550B-A55BのオープンウェイトLLMで、非常に効率的かつ高速であり、米国における新しいSOTAです。さらに、RTX Sparkパーソナルコンピュータ（1ペタフロップスーパーチップ）が、Microsoft、OpenClaw、Hermes Agentをローンチパートナーとしてプレビューされました（こちらに良い分析があります）。AIニュースは2026年5月30日から6月1日まで。12のサブレディット、544のTwitter、その他のDiscordはチェックしませんでした。AINewsのウェブサイトでは過去の全号を検索できます。お知らせ：AINewsは現在Latent Spaceの一部です。メールの頻度はオプトイン/オプトアウトできます。

AI Twitterまとめ

NVIDIAのCosmos 3、Nemotron 3 Ultra、そしてオープンな物理AIへの推進

NVIDIAのオープンソース週間：NVIDIAは、物理AIのためのオープンな全モーダル世界モデルファミリーであるCosmos 3と、550BのオープンウェイトモデルNemotron 3 Ultra（複数の投稿者がこれまでの米国最強のオープンモデルと呼んだ）でオープンモデルの議論を支配しました。Cosmos 3はフルスタックリリース（ウェイト、コード、データセット、ファインチューニングレシピ）として位置づけられ、NVIDIAはRunwayなどのパートナーとともに、世界モデルのためのオープンエコシステムを構築するCosmos Coalitionも立ち上げました。@NVIDIAAIエコシステムコンテキスト、@runwayml連合発表、@kimmonismus Cosmosスレッド、@ClementDelangueのNVIDIAのHFフットプリントについて。

Cosmos 3の技術的重要性：ロボティクスのレトリックを超えて、より具体的な詳細は、Cosmos 3が単一のMixture-of-Transformers設計で言語、画像、動画、音声、動作を統合し、自己回帰推論器と拡散生成器をペアにしていることです。Artificial Analysisは、Cosmos 3がテキストから画像と画像から動画の両方のリーダーボードでオープンウェイトモデルの中で1位になったと述べ、生成器は構造化JSONプロンプトを使用し、外部のプロンプトアップサンプリングハーネスまたは独自の推論ブランチのいずれかで駆動できると指摘しました。さらに、NVIDIAのハードウェア＋ソフトウェアの推進は、OpenMDWフレームワークの採用や、falなどのプラットフォームでのパートナーエコシステム統合にまで拡大しました。@ArtificialAnlys、@fal。

Nemotron 3 Ultraの反響：Nemotron 3 Ultraに対するコミュニティの反応は、新しいオープンリリースとしては異常に強いものでした。投稿者は性能とサービング特性の両方を強調し、すでに一部のオープン評価でトップに立ち、一部の設定では300+ tok/sでサービスされている可能性がある（大型のDeepSeek/Kimiクラスモデルよりもはるかに高速）と主張しています。@scaling01、@ctnzr、@caspar_br。また、NemotronはKimi K2 / DeepSeek V4などの同類よりも疎らではない（約10%アクティブ vs 約3%）という技術的議論もあり、これは経済性と振る舞いの両方に影響を与える可能性があります。@eliebakouch。

MiniMax M3、Qwen3.7-Plus、JetBrains Mellum2がオープンエージェントモデル分野を拡大

MiniMax M3のローンチはその日最大のモデルリリースでした。M3は、1Mコンテキスト、ネイティブマルチモダリティ、競争力のあるエージェントベンチマークを持つオープンウェイトのマルチモーダルエージェント/コーディングモデルとして提示されました。ローンチパートナー全体で繰り返されたヘッドライン数値は、59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、74.2% MCP Atlasでした。@MiniMax_AI、@PBDTokenRouter、@kimmonismus。Novita、Vercel AI Gateway、Cloudflare AI Gateway、OpenClaude、Flowithなど、複数のインフラベンダーが初日サポートをリリースし、異例に早いエコシステム採用を示唆しています。@MiniMax_AI on Novita、@rauchg、@gitlawb。

ベンチマークと実践的な経験はまちまち：M3はフロントエンド生成、ビジュアル/ゲームタスク、コストパフォーマンスで賞賛され、サイドバイサイドのデモでは強力なワンショットUI/ゲーム出力と、Next.jsエージェント評価での注目すべきベンチマーク順位を示しました。@notjazii、@lostinlatencyX、@rauchg。しかし、複数の評価者はまた、高いトークン消費、冗長な自己チェックループ、長期タスクでの時折の要求ドリフトを報告し、M3は「品質優先、効率は後回し」のモデルのように見えるとしました。@ZhihuFrontierレビュー、@teortaxesTex懐疑。

Qwen3.7-Plus：AlibabaはQwen3.7-Plusを、GUIとCLI操作、視覚的推論、コーディング、検索拡張QAを統合したマルチモーダルインタラクティブハイブリッドエージェントとしてリリースしました。Alibaba Cloud Model Studioを介してAPIで利用可能であり、すぐにClineなどのツールに追加されました。@Alibaba_Qwenリリース、@cline。このリリースは、オープンなアジアの研究所がもはや「単なるチャットモデル」をリリースするのではなく、完全なエージェント対応マルチモーダルシステムをリリースしているというトレンドを強化しています。

JetBrains Mellum2：JetBrainsはMellum2をリリースしました。これは12B MoEモデルで、2.5Bのアクティブパラメータを持ち、約11Tトークンでトレーニングされ、RLVRでポストトレーニングされ、ベース/SFT/RLチェックポイントとテクニカルレポートをリリースしています。@nv_pavlichenko、@jetbrains。意図されたニッチは特に興味深いものです。ルーティング、RAG、サブエージェント、IDE使用のための超低レイテンシ推論であり、すぐにvLLMに搭載されました。@vllm_project。これは、ベンチマークを追うフロンティアリリースではなく、開発者ワークフローのための真剣な「小型高速オープンモデル」の試みのように見えます。

エージェント、サンドボックス、メモリ、検索が実際のプロダクトサーフェスになりつつある

スタックはモデル呼び出しからエージェントランタイムへ移行：複数のローンチが、主要なエンジニアリングレバレッジはモデルではなくハーネスにあるという考えに収束しました。Perplexityの「Search as Code」は最も明確な例です。反復的な検索ツール呼び出しの代わりに、モデルが検索SDKに対してPythonを書き、カスタムランキングパイプライン、インデックス上のマップリデュース、バッチ処理、集約、より低いトークンオーバーヘッドを可能にします。Perplexityは内部のWANDRベンチマークで0.152から0.386へのジャンプを報告しています。@perplexity_ai、@AravSrinivas。

マネージドエージェント＋サンドボックスが標準になりつつある：GoogleはGemini APIでマネージドエージェントを詳細に説明しました。単一のAPIコールで、推論、コードの記述/実行、ファイル管理、ホスト型Linuxサンドボックス内での操作を行うエージェントを起動できます。@_philschmid、@GoogleAIStudio。LangChainは、Deep Agents、Context Hub、LangSmith Sandboxes/Engineを中心に同様のアイデアを推進し、永続的なコンテキスト、エージェントライフサイクルツール、自動障害トリアージを強調しました。@LangChain、@hwchase17。

メモリは依然として欠けているプリミティブ：繰り返しの不満は、巨大なコンテキストウィンドウでもセッションをまたぐメモリを解決できないことでした。HydraDBに関するスレッドは、「RAG＋手動コンテキスト注入」がメモリと誤って呼ばれており、実際の永続セッション知識は依然として十分にサービスされていないと主張しました。@kimmonismus。関連する研究スレッドは、凍結されたエージェントのコンテキストを刈り込み/保持するためにRLを介して別のLLMをトレーニングするAdaCoMのような、再利用可能なコンテキスト管理ポリシーを指摘しました。@dair_ai。

セキュリティは依然としてエンタープライズエージェントのゲート問題：Microsoft Security Intelligenceから、90以上のredhat-cloud-servicesパッケージに影響を与える大規模なnpmサプライチェーン侵害についての注目すべき警告がありました。これには、npm/GitHub/AWS/SSH認証情報を盗む自己増殖ワームが含まれていました。@MsftSecIntel。同時に、エンタープライズエージェントベンダーは、サンドボックス、ランタイム分離、セキュリティスタック統合を展開の前提条件として強調し、NVIDIA OpenShellやLangChainのサンドボックスキーノートに関する議論も含まれていました。@shannholmberg、@LangChain。

Codex、Claude Code、そして競争的なコーディングエージェントレース

OpenAIはCodexをさらに多くの場所に拡張：OpenAIは、フロンティアモデルとCodexがAWS / Amazon Bedrockで一般利用可能になったと発表しました。これは、既存のAWSセキュリティ/コンプライアンスワークフロー内でOpenAI機能を求めるエンタープライズを明確にターゲットにしています。@OpenAI、@OpenAIDevs。OpenAIはまた、スレッド、ターン、ストリーミング、再開、画像、サンドボックス制御をサポートするCodex Python SDKをリリースしました。@reach_vb、さらにBedrockベースのCodexワークフローサポートも。@reach_vb on Bedrock config。

Claude Codeで実際の運用インシデントが発生：Anthropicは、一部のOpus 4.8セッションが過剰な並列サブエージェント/ツールコールを生成し、予期せず使用量を消費するバグを修正した後、ProおよびMaxユーザーの5時間および週間レート制限をリセットしました。@ClaudeDevs、フォローアップ。これは、コーディングエージェント製品の品質が、生のモデルIQだけでなく、オーケストレーションの振る舞いによってますます決定されることを思い出させる重要な事例です。

コーディングモデル間の行動の違いは依然として重要：開発者は、ProgramBenchやWeirdMLなどのベンチマークにおいて、GPT、Claude、その他のモデル間で大きな質的違いを強調しました。Opusは時々スコア最大化よりも探索を好んだり、ベンチマーク固有の癖を示したりしました。@OfirPress、@htihle。別の長いスレッドは、新しいClaude Opus 4.6–4.8バリアントが非コーディング領域でもっともらしいが架空の概念を作り出す可能性があると主張し、通常の幻覚ではなく、真実性/アライメントの後退の可能性を示唆しました。@distributionat。

インフラ、ハードウェア、ローカルAIシステム

NVIDIAがPC市場に参入：最も議論されたハードウェアローンチはRTX Sparkで、NVIDIA/Microsoftの「パーソナルAIコンピュータ」であり、Grace + Blackwellをベースに、最大128GBのユニファイドメモリと主張される1 PFLOP FP4を備えています。重要な戦略的解釈：NVIDIAはもはやアクセラレータだけを販売しているのではなく、Apple Silicon、x86 PC、Qualcommと同時に競合するエンドツーエンドのローカルAIシステムを販売しています。@kimmonismus、@swyx。

クラスター/ネットワーキングの更新：データセンター側では、LambdaがNVIDIA Quantum-X InfiniBand Photonics Q3450-LDスイッチを初めて採用し、大規模AIクラスターのネットワーク電力と障害を低減するために共パッケージ光学を推進していると述べました。@LambdaAPI。OpenAIはまた、Stargate Michiganを発表しました。これは、クローズドループ冷却を使用し、労働力/教育コミットメントと組み合わせた計画中の1GWデータセンターです。@OpenAINewsroom。

ローカルオープンモデルツールは急速に改善中：MLX-VLM v0.6.0リリースは、より実質的なローカル推論/ツールアップデートの1つであり、投機的デコード、AnthropicスタイルおよびレスポンススタイルAPI、ツール呼び出し、多くの新しいマルチモーダルモデルのサポート、画像/音声機能を追加し、Appleデバイスを「本当のローカルエージェントマシン」にするという明確な売り込みがあります。@Prince_Canuma。これは、ローカルNVFP4 MoEサービングのためのDGX Spark + vLLM実験の増加とよく合致します。@vllm_project。

トップツイート（エンゲージメント順、技術的関連性でフィルタリング）

AnthropicのIPOパス：Anthropicは、SECにドラフトS-1を秘密裏に提出したと述べ、審査待ちのIPOへの道を開きました。@AnthropicAI。

Claude Code使用インシデント：Anthropicは、Opus 4.8の並列サブエージェント/ツール呼び出しバグが過剰な割り当て消費を引き起こした後、ユーザーレート制限をリセットしました。@ClaudeDevs。

Qwen3.7-Plus：Alibabaは、GUI/CLI操作、コーディング、ビジュアルタスクをカバーするマルチモーダルエージェントモデルをリリースしました。@Alibaba_Qwen。

OpenAI on Bedrock：OpenAIモデルとCodexは、エンタープライズワークフロー向けにAmazon Bedrockを通じて利用可能になりました。@OpenAI。

ARC-AGI-3の進展：Claude Opus 4.8がARC-AGI-3で1.5%の新しいSOTAを記録。絶対値ではまだ小さいが、そのベンチマークでは意味のあるジャンプです。@arcprize。

AI Redditまとめ

/r/LocalLlama + /r/localLLMまとめ

新しいフロンティアモデルのリリースと初期テスト

MiniMax M3 - コーディング＆エージェンティックフロンティア、1Mコンテキスト、マルチモーダル（アクティビティ：1090）：MiniMax M3は、コーディング/エージェントに焦点を当てたオープンウェイトフロンティアモデルとして発表され、ネイティブマルチモダリティ/ビジョン、および最大1Mトークンのコンテキスト（最低512K保証）のためのMiniMax Sparse Attentionを備えています（MiniMax M3）。主張される長期エージェント結果には、12時間のICLR論文再現、Hopper FP8 GEMM CUDA/Triton最適化（147イテレーション後9.4倍高速化）、PostTrainBenchでOpus 4.7とGPT-5.5に次ぐ3位などがあります。現在はAPI/MiniMax Codeでアクセス可能で、HuggingFace/GitHubでのウェイトとローカルデプロイが計画されています。コメント投稿者は、安価で効率的なビジョンと長コンテキストのエージェンティックコーディングの組み合わせに慎重に関心を示していますが、発表が「オープンウェイト」と呼んでいるため懐疑的です。...（AIコスト管理のため省略）