2024-09-10 02:28 UTC+9サイト内リライト6 分で読了更新: 2026-06-27 09:25 UTC+9

LLMチャットボットに欠けているもの：目的意識

この記事は、LLMチャットボットがベンチマークで進歩している一方で、対話における目的意識が欠けていると論じています。現在のシステムは次のトークンを予測するように訓練され、RLHFで微調整されていますが、その結果、ペルソナの漂流や長期的な目標達成の困難が生じています。著者は、モデルを目的指向の相互作用に導くための対話アクショントークン（DAT）を提案し、監視と報酬活用の今後の方向性について議論しています。

ソースThe Gradient著者: Kenneth Li

記事インテリジェンス

エンジニア上級

要点

LLMチャットボットはMMLUなどのベンチマークで優れているが、ユーザー体験は比例して向上していない。
目的のある対話（複数ラウンド、目標指向）は人間とAIの協力に不可欠である。
現在のシステムは長時間の会話でペルソナの漂流や安全性の問題を抱えている。
対話アクショントークン（DAT）は強化学習を用いて複数ラウンドの目標駆動型対話を導き、目標達成を改善する。

重要な理由

このニュースが重要なのは、LLMチャットボットはMMLUなどのベンチマークで優れているが、ユーザー体験は比例して向上していないためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）ベースのチャットボットの能力は毎月向上しており、その進歩は主にMMLU、HumanEval、MATHなどのベンチマークで測定されています。しかし、これらの指標が飽和状態になるにつれて、ユーザー体験はスコアに比例して向上しているのでしょうか？AIが人間に取って代わるのではなく、人間とAIの協力を想定するならば、現在の非インタラクティブな評価方法では対話システムの真の効果を測るのに不十分かもしれません。

目的のある対話とは、目標や意図を中心とした複数ラウンドのユーザーとチャットボットの会話を指します。目標は「無害で役立つ」のような一般的なものから、「旅行計画エージェント」「心理療法士」「カスタマーサービスボット」のような具体的な役割まで様々です。旅行計画を例にとると、個人の好み、同行者の好み、現実世界の複雑さにより、すべての情報を一度に伝えるにはコストがかかりすぎます。しかし、複数回の情報交換が許されれば、重要な情報だけが選択的に交換されます。交渉理論のアナロジーとして、反復交渉は一発勝負のオファーよりも良い結果をもたらします。

実際、情報共有は対話の一側面に過ぎません。Terry Winogradの言葉を借りれば、「すべての言語使用は、聞き手の中で手続きを活性化する方法と考えることができる」。各発言は、一方の当事者が相手の世界モデルを変えるために取る意図的な行動と見なせます。双方がより複雑で隠された目標を持っている場合はどうでしょうか？このように、目的のある対話は、人間とAIの相互作用を協力ゲームとして定式化する方法を提供し、チャットボットの目標は人間が特定の目標を達成するのを助けることです。

これは学術研究者だけが気にする不必要な複雑さに見えるかもしれません。しかし、目的のある対話は、コード生成のような最も実利的で製品指向の研究方向にも有益です。既存のコーディングベンチマークは主に一回の生成性能を測定しますが、AIが一般的なGitHubの問題（SWE-benchなど）を自動化するには、単一のアクションでは不可能です。AIは人間のソフトウェアエンジニアと何度もやり取りして正しい要件を理解し、不足しているドキュメントやデータを求め、必要に応じて人間に助けを求める必要があります。ペアプログラミングと同様に、これにより工数を増やすことなくコードの欠陥を減らせます。

さらに、ターンテイキングの導入により多くの新たな可能性が開かれます。相互作用が長期化し記憶が構築されると、チャットボットは徐々にユーザープロファイルを更新し、嗜好に適応できます。毎日のやり取りであなたの好みを学習するパーソナルアシスタント（IVA、Siriなど）を想像してください。自動的に新しい情報源（Twitter、arXiv、Slack、NYTなど）を読み、好みに合わせた朝のニュース要約を提供し、あなたの編集から学習してメールの下書きを改善できます。

要するに、意味のある人間同士の相互作用はめったに見知らぬ人から始まり一回の交換で終わることはありません。人間は自然に複数ラウンドの対話を通じて相互に作用し、会話の中で適応します。しかし、これは現代のLLMの基盤である次のトークンの予測とは正反対のように思えます。以下では、対話システムの成り立ちを見てみましょう。

1970年代に遡り、Roger Schankは「レストランスクリプト」を一種の対話システムとして導入しました。このスクリプトは典型的なレストラン体験を入店、注文、食事、支払いなどのステップに分解し、各ステップに特定のスクリプト化された発話を割り当てました。当時は、すべての対話が綿密に計画され、AIシステムが現実的な会話を模倣できるようにしていました。今日のLLMベースの対話システムと比較すると、次のトークンを予測するように訓練されたモデルがどうやって対話を行うのか不思議に思えます。そこで、対話システムがどのように作られるかを詳しく見ていきましょう。

（1）事前学習：シーケンスモデルが巨大なインターネットテキストの混合コーパスで次のトークンを予測するように訓練されます。構成は様々ですが、主にニュース、書籍、GitHubコードであり、RedditやStack Exchangeなどのフォーラムからクロールされたデータも少量含まれ、これらには対話のようなデータが含まれる場合があります。

（2）対話形式の導入：シーケンスモデルは文字列しか処理できないため、対話履歴の最も自然な表現はシステムプロンプトと過去のやり取りの構造化インデックスです。そのため、変換のために特定の形式を導入する必要があります。Huggingfaceトークナイザーはtokenizer.apply_chat_templateメソッドを提供しています。正確な形式はモデルによって異なりますが、通常はシステムプロンプトを特殊なトークンで囲み、事前学習モデルがより多くの注意を割り当てることを期待します。システムプロンプトは下流アプリケーションへの適応と安全な動作の確保に重要な役割を果たします。

（3）RLHF：このステップでは、チャットボットは望ましい回答または望ましくない回答を生成したことに対して直接報酬またはペナルティを受けます。注目すべきは、この時点で初めて対話形式が訓練データに登場することです。RLHFは微調整ステップであり、データサイズが事前学習コーパスに比べてはるかに小さいだけでなく、KLペナルティやターゲットを絞った重み調整（LoRAなど）が伴います。

現在の対話システム（2024年）の一貫性はどうでしょうか？最低限の要件は、与えられたタスクに留まれることです。現在、「システムプロンプト」がユーザーがLMの動作を制御する主な方法です。しかし、研究ではLLMが敵対的条件下でこれらの指示に従う際に脆弱であることが示されています。読者もChatGPTやClaudeとの日常的なやり取りで経験したかもしれません。新しいチャットウィンドウを開いた直後はモデルは指示にかなり従いますが、数ラウンドの対話後には新鮮さを失い、役割を完全に無視することもあります。

この逸話を定量的に捉えるにはどうすればよいでしょうか？一回の指示追従については、MT-BenchやAlpaca-Evalなどのベンチマークが既に存在します。しかし、インタラクティブな方法でモデルをテストする場合、モデルが生成する内容を予測し、事前に返答を準備することは困難です。私と共同研究者たちのプロジェクトでは、無制限の長さの対話を合成してLLMチャットボットの指示追従能力をストレステストする環境を構築しました。

時間スケールを制約なく拡大するため、2つのシステムプロンプトで設定されたLMエージェントに長時間対話させました。これにより対話の主幹が形成されます。この時点で、対話を調べるだけでLLMがシステムプロンプトにどれだけ従っているかがわかるかもしれませんが、多くの発話は会話の展開次第で指示に関係ありません。そこで、各ラウンドで仮想的に分岐し、システムプロンプトに直接関連する質問をして、対応する判定関数でパフォーマンスを定量化します。

様々なシナリオとシステムプロンプトのペアで平均を取ると、ラウンド数を経るごとの指示安定性の曲線が得られます。驚くべきことに、LLaMA2-chat-70Bとgpt-3.5-turbo-16kの両方で結果は憂慮すべきものでした。プロンプトエンジニアリングの難しさに加え、指示安定性の欠如は安全性の懸念も引き起こします。安全面を規定するシステムプロンプトから逸脱すると、ジェイルブレイクされやすくなり、幻覚も生じやすくなります。

これらの実証結果は、増え続けるコンテキスト長とも対照的です。理論的には、一部の長コンテキストモデルは最大10万トークンに注意を払えますが、対話設定ではわずか1.6千トークン（各発話100トークンと仮定）で気が散ってしまいます。我々はさらに、現在のプロンプト方式ではTransformerベースのLMチャットボットでこれが避けられないことを理論的に示し、split-softmaxと呼ばれる簡単な手法で緩和することを提案しました。

なぜ人間は8ラウンド話しただけでペルソナを失わないのでしょうか？人間の相互作用は目的と意図に基づいており、これらの目的は手段に先行するからです。一方、LLMは基本的に流暢な英語生成器であり、ペルソナは薄く追加された層に過ぎません。

では、何が欠けているのでしょうか？事前学習は言語モデルにインターネット上のペルソナの分布と各ペルソナの低レベル言語分布をモデル化する能力を与えます。しかし、指示やシステムプロンプトで1つのペルソナ（または限られた数の混合）を指定しても、現在の手法ではそれをうまく抽出できません。

RLHFはこのマルチペルソナモデルを「役立つ無害なアシスタント」に適応させる強力なソリューションを提供します。しかし、元のRLHF手法は報酬最大化を1ステップのバンディット問題として定式化しており、対話のループ内で人間のフィードバックで訓練することは一般的に不可能です。このマルチターン計画の欠如により、モデルはタスクの曖昧さに悩まされ、目標指向の社会的相互作用ではなく表面的な人間らしさを学習する可能性があります。

このギャップを埋めるため、私と共同研究者は軽量なアルゴリズム「対話アクショントークン（DAT）」を提案しました。各ラウンドで、対話履歴の最後のトークン埋め込みを入力（状態）として、プランナー（アクター）がいくつかのプレフィックストークン（アクション）を予測し、生成プロセスを制御します。比較的安定したRLアルゴリズムTD3+BCでプランナーを訓練することで、Sotopiaでベースラインを大幅に改善し、GPT-4の社会的能力スコアを超えることさえ達成しました。

このように、LMを単なる次のトークンを推測する予測モデルから、人間と目的を持って対話するモデルへとアップグレードする技術的経路を提供します。この技術は有害なアプリケーションにも悪用される可能性があるため、マルチラウンドのレッドチーム実験も実施し、マルチラウンド対話を潜在的な攻撃面としてより多くの研究が行われることを推奨します。

結論：現在のLLM対話システムの構築方法とその不十分さをレビューしました。欠けているのは目的意識であるという仮説を立て、それを強化学習で追加する1つの技法を紹介しました。今後の研究課題として、（1）TalkTurnerのようなステアリング技術による対話システムのより良い監視と制御、（2）言語や外部リソースからの隠れた報酬信号の活用によるネットワーク効果の強化に興奮しています。