2024-09-10 01:28 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

LLM聊天機器人缺失的是什麼：目標感

文章指出，儘管LLM聊天機器人在基準測試中不斷進步，但使用者體驗並未同比提升。當前對話系統缺乏目標感，易出現角色漂移，難以實現長期目標導向的互動。作者提出對話動作令牌（DAT）方法，透過強化學習引導模型進行多輪目標驅動對話，並探討了未來研究方向。

來源The Gradient作者: Kenneth Li

大型語言模型（LLM）聊天機器人的能力每月都在提升，這些進步主要透過MMLU、HumanEval和MATH等基準測試來衡量。然而，隨著這些指標逐漸飽和，使用者體驗是否與這些分數成正比增長？如果我們設想的是人機協作而非AI取代人類的未來，當前的非互動式評估方式可能不足以衡量對話系統的真正效能。

有目的的對話是指圍繞一個目標或意圖進行的多輪使用者與聊天機器人對話。目標可以從通用的“無害且有用”到更具體的角色如“旅行規劃代理”、“心理治療師”或“客服機器人”。以旅行規劃為例，由於個人偏好、同行者偏好以及現實世界的複雜性，一次性傳遞所有資訊代價過高。但允許多輪資訊交換時，只有重要資訊會被選擇性交換。談判理論中的類比顯示，迭代談判比一次性報價能產生更好的結果。

事實上，資訊共享只是對話的一個方面。如Terry Winograd所言：“所有語言使用都可以被視為在聽者中啟用程式的方式。”我們可以將每一句話視為一方為改變另一方世界模型而採取的有意行動。當雙方都有更復雜甚至隱藏的目標時，有目的的對話提供了一種將人機互動視為協作遊戲的方式，其中聊天機器人的目標是幫助人類實現特定目標。

這看似對產品導向的研究方向（如程式碼生成）也不無裨益。現有編碼基準主要衡量一次性生成效能，但要自動化解決普通的GitHub問題（如SWE-bench中的），單次操作難以實現——AI需要與人類軟體工程師反覆溝通以確保理解正確需求、詢問缺失文件和資料，甚至在必要時請求幫助。類似於結對程式設計，這種方法可以在不增加工時的前提下減少程式碼缺陷。

此外，引入輪次互動還可解鎖新可能。隨著長期互動和記憶構建，聊天機器人能逐步更新使用者畫像並適應使用者偏好。想象一個透過日常互動學習你偏好的個人助理（如IVA、Siri），它能自動閱讀你的新資訊源（如Twitter、arXiv、Slack、紐約時報），並根據你的偏好提供晨間新聞摘要，還能從你的編輯中學習改進郵件草稿。

簡而言之，有意義的人際互動很少從完全陌生開始並在一次交換中結束。人類透過多輪對話自然互動並相應調整。然而，這似乎與預測下一個令牌——現代LLM的基石——截然相反。讓我們看看對話系統是如何構建的。

回顧1970年代，Roger Schank的“餐廳指令碼”將典型用餐體驗分解為進入、點餐、用餐、付款等步驟，每個步驟都有特定的指令碼話語。與今天基於LLM的對話系統相比，透過預測下一個令牌訓練的模型如何能進行對話似乎很神秘。我們來詳細審視對話系統的製造過程：

（1）預訓練：序列模型在大型混合網際網路文本上訓練以預測下一個令牌。語料主要包含新聞、書籍、GitHub程式碼，以及少量論壇爬取資料（如Reddit、Stack Exchange），其中可能包含類似對話的資料。

（2）引入對話格式：由於序列模型僅處理字串，而對話歷史最自然的表示是系統提示和過往交流的結構化索引，必須引入某種格式進行轉換。具體格式因模型而異，但通常涉及用特殊標記包圍系統提示，期望預訓練模型能分配更多注意力。系統提示在適配下游應用和確保安全行為方面起重要作用。

（3）RLHF：在此步驟中，聊天機器人因生成期望或不期望的回答而直接獲得獎勵或懲罰。這是首次在訓練資料中出現對話格式。RLHF是微調步驟，資料量遠小於預訓練語料，且帶有KL懲罰和定向權重調整（如LoRA）。

現有對話系統（2024年）的一致性如何？最低要求是能保持在給定任務上。當前，“系統提示”是使用者控制LM行為的主要方法。然而，研究發現LLM在對抗條件下遵循指令時存在脆弱性。實際體驗中，新開聊天視窗時模型能較好遵循指令，但幾輪對話後它可能不再新鮮，甚至停止遵循角色。

為定量捕捉這一現象，我和合作者構建了一個環境，透過合成無限長對話來壓力測試LLM聊天機器人的指令遵循能力。我們讓兩個帶系統提示的LM代理進行多輪對話，並在每輪假設性分支提出與系統提示直接相關的問題，用對應判斷函式量化表現。結果令人擔憂：LLaMA2-chat-70B和gpt-3.5-turbo-16k上的指令穩定性曲線急劇下降。除了提示工程的難度增加，缺乏指令穩定性還帶來安全隱患——聊天機器人偏離涉及安全方面的系統提示後，更容易被越獄併產生更多幻覺。

這些實證結果與不斷增長的上下文長度形成對比。理論上，某些長上下文模型能關注多達10萬令牌，但在對話設定中，僅1.6千令牌後就可能分心。我們在論文中進一步從理論上證明了當前提示方案下Transformer LM聊天機器人的這種不可避免性，並提出了split-softmax等緩解技術。

為什麼人類與另一個人交談8輪後不會失去自己的角色？因為人類互動基於目的和意圖，這些目的先於手段——而LLM本質上是流暢的英語生成器，角色只是薄薄的一層附加。

那麼，缺失的是什麼？預訓練賦予了語言模型對網際網路角色分佈的建模能力，但即使透過指令指定角色，當前方法也難以將其單獨提取出來。RLHF提供了適應“有用且無害助手”的解決方案，但原始RLHF將獎勵最大化視為單步賭臂問題，通常無法在對話迴圈中訓練。這種缺乏多輪規劃可能導致模型遭受任務模糊性，學習表面的人類相似性而非目標導向的社會互動。

為填補這一空白，我和合作者提出了一種輕量級演算法——對話動作令牌（DAT）。在每輪對話中，對話歷史的最後一個令牌嵌入被用作規劃器（行動者）的輸入，預測幾個字首令牌來控制生成過程。透過用相對穩定的RL演算法TD3+BC訓練規劃器，我們在Sotopia上取得顯著改進，甚至超過GPT-4的社會能力得分。這種方式將LM從簡單的預測模型升級為有目的地參與對話的模型。當然，該技術也可能被濫用，因此我們進行了多輪紅隊測試，並建議更多研究來理解多輪對話作為潛在攻擊面。

結論：我回顧了當前LLM對話系統的構建方式及其不足之處。我假設缺失的是目標感，並介紹了一種用強化學習新增目標感的技術。未來令我興奮的研究方向包括：（1）更好的監控和對話系統引導技術，如TalkTurner等；（2）更好地利用離線獎勵訊號，從語言線索或外部資源推斷隱藏獎勵，以增強網路效應。