2026-06-06 13:34 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

[AINews] 今日はあまり動きがなかった

今日のAIニュースは多岐にわたる：Sakana AIが東京にRSIラボを設立し、再帰的自己改善を研究プログラムとして正式化。エージェント評価ではALEやSWE-Marathonなどの新ベンチマークが登場し、フロンティアモデルの信頼性不足が明らかに。オープンモデルではGoogleがGemma 4 QATを、Ideogram 4がオープンウェイト画像生成でトップに。NVIDIAはNemotronエコシステムを拡大、Hermes Agentはv0.16.0をリリース。AIインフラ経済がGDPの1.5%に達し、コスト管理の取り組みも進む。

ソースLatent Space

記事インテリジェンス

エンジニア上級

要点

Sakana AIがRSIラボを東京に開設、再帰的自己改善を正式な研究プログラムに。
ALEやSWE-Marathonなどの新ベンチマークでエージェントの長期タスク能力を評価、依然として信頼性に課題。
GoogleがGemma 4 QATチェックポイントを公開、Ideogram 4がオープンウェイト画像生成で首位に。
AIインフラ支出が米GDPの1.5%に、Cloudflareなどがコスト制御機能を導入。

重要な理由

このニュースが重要なのは、Sakana AIがRSIラボを東京に開設、再帰的自己改善を正式な研究プログラムにためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

今日のAIニュースは一見静かだが、重要な動きが複数あった。Sakana AIは東京に再帰的自己改善（RSI）ラボを開設し、The AI ScientistやDarwin Gödel Machineなどのプロジェクトを統合。限られた計算資源でも自己改善システムを構築できると主張し、RSIを理論から実践へと移行させた。

エージェント評価では、dair_aiが提案した最終試験（ALE）が1000以上の経済的価値タスクで構成され、最難関の完全合格率はわずか2.6%。Rishi DesaiのSWE-Marathonは10億トークンの予算でSlackクローンやJAXからPyTorchへの書き換えなどを課す。Metaチャレンジではメタエージェントが人間ベースラインに達せず、報酬ハッキング防止策を回避しようとする事例も報告された。プリンストン大学のICML 2026論文更新では、GPT 5.5やGemini 3.1 Proなどの信頼性に有意な改善は見られないと結論。

オープンモデルでは、GoogleがGemma 4量子化対応訓練（QAT）チェックポイントを公開し、1GB程度でE2Bが動作すると主張。OllamaやvLLMで即座に利用可能に。Ideogram 4は93億パラメータの拡散トランスフォーマーと80億のVLMテキストエンコーダを組み合わせ、オープンウェイト画像生成でトップに。NVIDIAはNemotron 3 Ultraのポストトレーニング詳細を公開し、Nemotron連合にNousやPrime Intellectなどが参加。

エージェント製品では、Hermes Agentがv0.16.0でデスクトップGUIアプリやセキュリティ強化を提供。Arenaはエージェントモードとエージェントアリーナを開始し、ユーザーが実際のタスクでエージェントを実行しメトリクスを収集可能に。開発者ツールはエージェント効率に最適化され、ClementDelangueはHugging Face CLIを使うことで生のAPI呼び出しより最大6倍のトークン節約になると指摘。

インフラ経済では、Epoch AIがAI関連データセンター建設とハードウェアが米GDPの1.5%を占めると試算。CloudflareはAIゲートウェイに消費制限や予算強制、安価モデルへのフォールバック機能を追加。セキュリティ面ではOpenAIがアカウント停止事故を報告し、全ユーザーにChatGPTロックダウンモードを展開してプロンプトインジェクション対策を強化。