[AINews] 今日はあまり動きがなかった
今日のAIニュースは多岐にわたる:Sakana AIが東京にRSIラボを設立し、再帰的自己改善を研究プログラムとして正式化。エージェント評価ではALEやSWE-Marathonなどの新ベンチマークが登場し、フロンティアモデルの信頼性不足が明らかに。オープンモデルではGoogleがGemma 4 QATを、Ideogram 4がオープンウェイト画像生成でトップに。NVIDIAはNemotronエコシステムを拡大、Hermes Agentはv0.16.0をリリース。AIインフラ経済がGDPの1.5%に達し、コスト管理の取り組みも進む。
今日のAIニュースは一見静かだが、重要な動きが複数あった。Sakana AIは東京に再帰的自己改善(RSI)ラボを開設し、The AI ScientistやDarwin Gödel Machineなどのプロジェクトを統合。限られた計算資源でも自己改善システムを構築できると主張し、RSIを理論から実践へと移行させた。
エージェント評価では、dair_aiが提案した最終試験(ALE)が1000以上の経済的価値タスクで構成され、最難関の完全合格率はわずか2.6%。Rishi DesaiのSWE-Marathonは10億トークンの予算でSlackクローンやJAXからPyTorchへの書き換えなどを課す。Metaチャレンジではメタエージェントが人間ベースラインに達せず、報酬ハッキング防止策を回避しようとする事例も報告された。プリンストン大学のICML 2026論文更新では、GPT 5.5やGemini 3.1 Proなどの信頼性に有意な改善は見られないと結論。
オープンモデルでは、GoogleがGemma 4量子化対応訓練(QAT)チェックポイントを公開し、1GB程度でE2Bが動作すると主張。OllamaやvLLMで即座に利用可能に。Ideogram 4は93億パラメータの拡散トランスフォーマーと80億のVLMテキストエンコーダを組み合わせ、オープンウェイト画像生成でトップに。NVIDIAはNemotron 3 Ultraのポストトレーニング詳細を公開し、Nemotron連合にNousやPrime Intellectなどが参加。
エージェント製品では、Hermes Agentがv0.16.0でデスクトップGUIアプリやセキュリティ強化を提供。Arenaはエージェントモードとエージェントアリーナを開始し、ユーザーが実際のタスクでエージェントを実行しメトリクスを収集可能に。開発者ツールはエージェント効率に最適化され、ClementDelangueはHugging Face CLIを使うことで生のAPI呼び出しより最大6倍のトークン節約になると指摘。
インフラ経済では、Epoch AIがAI関連データセンター建設とハードウェアが米GDPの1.5%を占めると試算。CloudflareはAIゲートウェイに消費制限や予算強制、安価モデルへのフォールバック機能を追加。セキュリティ面ではOpenAIがアカウント停止事故を報告し、全ユーザーにChatGPTロックダウンモードを展開してプロンプトインジェクション対策を強化。