MIT研究者、自己改善AIへの新たな一歩「SEAL」を発表
MITのSEALフレームワークは、大規模言語モデルが強化学習を通じて自身の重みを自己編集・更新することを可能にし、AIの自己進化に向けた重要な進展を示す。
近年、AIの自己進化は研究コミュニティで活発なトピックとなっており、多くの論文が発表され、OpenAIのCEOであるSam Altmanなどの著名人が自己進化型知能システムの将来について見解を示しています。このたび、マサチューセッツ工科大学(MIT)の新しい論文「自己適応型言語モデル」では、大規模言語モデル(LLM)が自身の重みを更新できるフレームワークSEAL(Self-Adapting LLMs)を提案しています。この開発は、真の自己進化AIの実現に向けた重要な一歩とみなされています。
この論文は昨日公開され、Hacker Newsなどで大きな議論を呼んでいます。SEALは、LLMが「自己編集」を通じて自らのトレーニングデータを生成し、新しい入力に基づいて重みを更新する手法を提案しています。重要なのは、この自己編集プロセスが強化学習によって学習され、報酬メカニズムが更新モデルの下流性能に結びついている点です。
論文の発表タイミングは特に注目に値します。今月初めにも、Sakana AIとブリティッシュコロンビア大学の「ダーウィン・ゲーデルマシン(DGM)」、カーネギーメロン大学の「自己報酬トレーニング(SRT)」、上海交通大学のマルチモーダル大モデル向け継続的自己改善フレームワーク「MM-UPT」、香港中文大学とvivoの共同研究「UI-Genie」自己改善フレームワークなど、複数の研究が注目を集めていました。さらに、Altmanはブログ記事「優しい特異点」で自己改善AIとロボットの未来像を描き、最初の数百万台の人型ロボットは従来の製造が必要だが、その後は「より多くのロボットを製造するためのサプライチェーン全体を運用でき、さらにチップ製造施設やデータセンターなどを建設できる」と述べました。これに続いて、@VraserXがOpenAI内部で再帰的自己改善AIがすでに動作していると主張するツイートが拡散され、その真偽をめぐって広範な議論が巻き起こりました。
内部のOpenAIの開発の詳細はさておき、MITのSEAL論文はAIの自己進化への進展を示す具体的な証拠を提供しています。
SEALの核となるアイデアは、新しいデータに遭遇したときに言語モデルが自身の合成データを生成し、自己編集を通じてパラメータを最適化して改善できるようにすることです。モデルのトレーニング目標は、モデルのコンテキスト内で提供されるデータを使用して、これらの自己編集(SE)を直接生成することです。
自己編集の生成は強化学習によって学習されます。生成された自己編集を適用した結果、対象タスクのパフォーマンスが向上した場合にモデルは報酬を得ます。したがって、SEALは2つのネストされたループを持つアルゴリズムとして概念化できます:自己編集の生成を最適化する外部強化学習ループと、生成された自己編集を使用して勾配降下法でモデルを更新する内部更新ループです。
この手法はメタ学習の一例と見なすことができ、メタ学習的な方法で効果的な自己編集を生成する方法に焦点を当てています。
SEALは単一のタスクインスタンス(C,τ)で動作します。Cはタスクに関連するコンテキスト情報、τはモデルの適応を評価するための下流評価を定義します。例えば、知識統合タスクでは、Cはモデルの内部知識に統合されるべき文章、τはその文章に関する一連の質問です。
Cが与えられると、モデルは自己編集SEを生成し、その後、教師ありファインチューニングによってパラメータを更新します:θ′←SFT(θ,SE)。強化学習はこの自己編集生成を最適化するために使用されます:モデルはアクション(SEの生成)を実行し、LMθ′のτでのパフォーマンスに基づいて報酬rを受け取り、期待報酬を最大化するようにポリシーを更新します。
研究者らは、GRPOやPPOなどの従来のオンラインポリシー手法が不安定なトレーニングにつながることを発見しました。最終的に、DeepMindの論文からよりシンプルなフィルタリングベースの行動クローニング手法であるReST^EMを採用しました。この手法は期待値最大化(EM)プロセスと見なすことができ、Eステップで現在のモデルポリシーから候補出力をサンプリングし、Mステップで正の報酬をもたらすサンプルのみを教師ありファインチューニングで強化します。
論文では、現在の実装は単一のモデルを使用して自己編集を生成し学習していますが、これらの役割は「教師-生徒」設定で分離できることも指摘されています。
MITチームはSEALを知識統合と少数ショット学習の2つの特定領域で具体化しました。
知識統合:記事からの情報をモデルの重みに効果的に統合することを目指します。
少数ショット学習:非常に少ない例で新しいタスクに適応することを含みます。
実験結果は、少数ショット学習と知識統合の両方でSEALフレームワークの有効性を示しています。
少数ショット学習では、Llama-3.2-1B-Instructモデルを使用し、SEALは適応成功率を大幅に向上させ、RLトレーニングなしの基本自己編集を使用したモデルの20%、適応なしの0%に対して72.5%を達成しました。理想化されたベースラインである「Oracle TTT」には及ばないものの、これは substantial な進歩を示しています。
知識統合では、より大きなQwen2.5-7Bモデルを使用してSQuAD記事からの新しい事実を統合し、SEALはベースライン手法を一貫して上回りました。ベースのQwen-2.5-7Bモデルからの合成生成データによるトレーニングですでに顕著な改善が見られ、その後の強化学習がさらに性能を向上させました。精度は外部RL反復にわたって急速に改善し、わずか2回の反復でGPT-4.1生成データを使用した設定を上回ることがよくありました。
論文の定性的な例は、強化学習がより詳細な自己編集の生成につながり、結果として性能が向上することを示しています。
有望ではあるものの、研究者らはSEALフレームワークの限界も認めており、破滅的忘却、計算オーバーヘッド、文脈依存評価などに関する側面が含まれます。これらは元の論文で詳細に議論されています。