AI News HubLIVE
站内改写2 分で読了

1つのニューロンを編集すればLLMの繰り返しループは修正できるか?

Gemma 4モデルの繰り返しループは1つのニューロンの編集で修正可能ですが、長時間推論における「ドゥームループ」は知識不足による根本的な問題であり、完全には解決できません。

ソースarXiv Machine Learning著者: Aristotelis Lazaridis, Aman Sharma, Dylan Bates, Brian King, Vincent Lu, Jack FitzGerald

arXivで公開された新しい研究は、大規模言語モデル(LLM)における繰り返しループを単一のニューロンの編集によって修正できる可能性を探求しました。研究チームは、Gemma 4命令チューニングモデルが長い事実列挙プロンプト(テレビシリーズの全エピソード、88のIAU星座、または151のポケモンをリストアップするなど)に対して高い頻度で繰り返しループに陥ることを発見しました。このループは、厳密な逐語的繰り返しか、リストが単一の回答に収束する形で現れ、発生率は95%に達し、プロンプトの言い換えや推論エンジンの変更、サンプリング調整のほとんどでも回避できませんでした。

原因を特定するため、研究者はレイヤーごとのアブレーションとニューロンごとの帰属分析を行い、最も有力な候補を完全生成スイープで確認しました。その結果、ループは少数のMLPニューロン(26B-A4B混合専門家モデルではいくつかのルーティングされた専門家)に由来することが判明し、これらを静的ウェイト編集で抑制することでループを除去できました。最小のケースでは、E2Bモデルの単一ニューロンの符号を反転するだけで効果がありました。有効な編集の規模はモデル規模に応じて大きくなりますが、いずれの場合も通常の生成予算内でループパターンを修正でき、汎用ベンチマークのスコアを維持できました。

しかし、この編集ですべてが解決するわけではありません。より長い思考予算を設定した場合、2つの大規模モデルでは、モデルが思い出せない事実について自己修正を繰り返し、予算を消費しながら最終回答を出せない「ドゥームループ」に陥ることが明確になりました。同じ編集によってこの残存する失敗は軽減されましたが、完全には除去されず、研究者はこれが本質的に知識精度の問題であり、除去可能な回路ではないと主張しています。ウェイト編集はループを削除できても、欠落した事実を補うことはできません。

この研究の成果は、具体的な生成病理が少数のパラメータに局在化し、編集によって除去できるという実現可能性の実証であると同時に、そのアプローチの限界を明確に示すものです。繰り返しループの修正に成功した一方で、「ドゥームループ」の根深さは、知識の欠落に対処するためのより根本的な解決策の必要性を浮き彫りにしています。