どのエージェントがタスク失敗を引き起こし、いつか?PSUとデューク大学の研究者がLLMマルチエージェントシステムの自動故障帰属を探る
ペンシルベニア州立大学とデューク大学の研究者らが、Google DeepMindなどとの協力のもと、LLMマルチエージェントシステムにおける自動故障帰属の問題を提唱。Who&Whenベンチマークデータセットを構築し、All-at-Once、Step-by-Step、Binary Searchの各手法を評価。ICML 2025でスポットライト発表される本研究成果は、開発者がどのエージェントがどのステップで失敗を引き起こしたかを迅速に特定するのに役立つ。現行手法の精度は、責任エージェントの特定で最大53.5%、エラーステップの特定で14.2%にとどまる。
- LLMマルチエージェントシステムの自動故障帰属を初めて形式化。
- Who&Whenデータセットは127の故障ログを含み、責任エージェントとエラーステップの詳細なアノテーションを提供。
MIT研究者、自己改善AIへの新たな一歩「SEAL」を発表
MITのSEALフレームワークは、大規模言語モデルが強化学習を通じて自身の重みを自己編集・更新することを可能にし、AIの自己進化に向けた重要な進展を示す。
- SEALは強化学習を用いた自己編集による重み更新を実現
- 少数ショット学習と知識統合タスクで顕著な性能向上
ペンシルベニア州立大学とデューク大学の研究者が「マルチエージェントシステムの自動故障帰属」を発表
LLMマルチエージェントシステムの故障診断の難しさに対処するため、研究者らは初めて「自動故障帰属」タスクを定義し、Who&Whenベンチマークデータセットを構築し、3つの帰属手法を評価した。実験では、最良の手法でも責任エージェントの識別精度が53.5%、誤りステップの正確な特定が14.2%にとどまり、課題の困難さが浮き彫りになった。本論文はICML 2025でスポットライト発表として採択された。
- マルチエージェントシステムにおける自動故障帰属タスクを初めて正式に定義。
- 127のシステム故障ログからなるWho&Whenデータセットを構築、詳細な人手アノテーションを付与。
Adobe Research、状態空間モデルを用いてビデオ世界モデルの長期記憶を実現
Adobe Research、スタンフォード大学、プリンストン大学の研究チームは、状態空間モデル(SSM)と密な局所注意を組み合わせた新しいアーキテクチャを提案し、ビデオ生成における長期記憶の課題を解決した。ブロック単位のSSMスキャン、拡散強制、フレーム局所注意などの戦略により、Memory MazeやMinecraftデータセットで優れた性能を達成し、計算効率を維持しながらインタラクティブな応用を可能にする。
- 長期記憶のためにSSMと空間的一貫性のための局所注意を組み合わせたLSSVWMを提案。
- ブロック単位のSSMスキャン方式を導入し、計算コストと長期記憶を両立。
DeepSeek-V3新論文発表!ハードウェア認識協調設計による低コスト大規模モデルトレーニングの秘密を解明
DeepSeek-V3チームが14ページの技術論文を発表。CEOの梁文鋒氏が共著者として参加し、スケーリングの課題を克服するためのハードウェア認識モデル協調設計を探求。マルチヘッド潜在注意(MLA)、DeepSeekMoE、FP8トレーニング、ノード認識ルーティングなどの革新を詳述し、コスト効率の高い大規模トレーニングと推論を実現。
- DeepSeek-V3の技術論文は、低コストLLMトレーニングのためのハードウェア認識協調設計戦略を明らかにする。
- 主な革新には、メモリ効率のためのMLA、スパース計算のためのDeepSeekMoE、FP8混合精度トレーニングが含まれる。
DeepSeek、DeepSeek-Prover-V2を発表:再帰的証明検索と新しいベンチマークによるニューラル定理証明の進展
DeepSeek AIは、Lean 4形式定理証明のためのオープンソース大規模言語モデルDeepSeek-Prover-V2をリリース。DeepSeek-V3を用いた再帰的証明検索パイプラインと強化学習により、MiniF2Fでトップ結果を達成。同時に新ベンチマークProverBenchを導入。
- DeepSeek-Prover-V2は再帰的証明検索パイプラインを採用し、DeepSeek-V3でコールドスタート訓練データを生成。
- MiniF2Fテストで88.9%の合格率、PutnamBenchで49問を解決。
GRPOの効率を10倍にできるか?Kwai AIのSRPOが「はい」と答える
Kwai AIのSRPOフレームワークは、LLMのRL後訓練ステップを90%削減し、数学とコードでDeepSeek-R1に匹敵する性能を実現。ヒストリーリサンプリングを用いた2段階RLアプローチがGRPOの限界を克服する。
- SRPOは2段階訓練で数学とコードの最適化競合を解決。
- ヒストリーリサンプリングにより勾配信号の質を向上し、性能の頭打ちを防止。
Zhipu.AI、オープンソース戦略を強化:GLMモデルを8倍高速化、グローバル展開へ、IPOも視野
中国のAI企業Zhipu.AIが、次世代GLMモデルシリーズをオープンソース化。DeepSeek-R1の8倍の推論速度を誇るGLM-Z1、自律エージェント向けのRuminationモデル、エージェント機能を強化したGLM-4などを発表。国際プラットフォームZ.aiもローンチし、MaaSも提供。技術力とグローバル展開への野心を示し、IPOの布石と見られる。
- GLM-Z1推論モデルをオープンソース化、200トークン/秒を達成しDeepSeek-R1比8倍の速度
- 自律AIエージェント向けRuminationモデルを発表、インターネット検索や分析、自己検証が可能
DeepSeek、次世代R2モデルを示唆、SPCTによる推論スケーリングの新手法を公開
DeepSeek AIは、汎用報酬モデルの推論時スケーラビリティを向上させる新技術を詳述した研究論文を発表し、次世代モデルR2の差し迫った登場を示唆した。
- DeepSeekは、汎用報酬モデルの推論時スケーリングを改善する自己原則批評チューニング(SPCT)を導入。
- SPCTは、リジェクションファインチューニングとルールベースのオンライン強化学習を使用して、原則と批評を動的に生成。