2026-05-30 20:44 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

讓AI聊天機器人更有幫助會削弱其模擬人類行為的能力

一項大規模研究發現，將語言模型訓練成有用的聊天助手會削弱它們模擬人類行為的能力，且隨著模型迭代，這一差距不斷增大。即使是使用人口統計資訊來引導模型，也無法提高個體行為預測的準確性。

來源The Decoder作者: Jonathan Kemper

一項大規模研究顯示，將原始語言模型訓練成有用的聊天機器人的過程，也會削弱它們模仿人類行為的能力。這種效應隨著每一代新模型的推出而加劇。

語言模型越來越多地被用作人類測試物件的替代品，以預測對政策措施的反應、模擬精神科醫生的臨床培訓，或建模學生的學習方式。然而，一項由國際研究聯盟（包括赫爾姆霍茲慕尼黑中心的科學家）進行的新研究得出了一個令人不安的發現：正是那些將語言模型轉變為有用助手的訓練步驟，使它們在建模人類行為方面表現更差。

該研究基於Psych-201資料集，該資料集包含了來自行為實驗的轉錄文本，涵蓋約20.8萬名參與者和約2600萬條個體反應，規模是此前任何類似資料集的數倍。每個資料點記錄了參與者在實驗中的完整過程，以及詳細的後設資料，如年齡、國籍、問卷回答和其他特徵。該資料集透過公開研究合作的方式由來自超過35個機構的研究人員共同構建。

研究人員比較了Qwen3、Llama3和OLMo 3系列模型，測試了基礎模型及其各種後訓練變體。基礎模型僅訓練用於預測文本中的下一個詞。而額外的訓練則產生了針對指令遵循、逐步推理或影像處理等最佳化版本的模型。評估指標是：每個模型預測人類參與者實際答案的準確程度。

結果在所有模型系列和規模中一致：基礎模型在預測人類行為方面優於其後訓練版本。這種效應出現在每一種常見的訓練目標中，對推理模型的影響最為嚴重，其次是指令微調和視覺擴充套件。在幾乎每一次直接比較中，基礎模型都優於其專門化的變體。

一種常見的反駁觀點是：助手模型可能只是更確定性地回答，未能捕捉人類行為的自然分佈。研究人員透過在具有離散答案選項的任務子集上進行準確性分析驗證了這一點。後訓練模型的表現仍然更差，因此更高的確定性不可能是唯一解釋。

雖然基礎模型從Qwen2到Qwen2.5再到Qwen3穩步改進，在預測人類行為方面代際提升，但它們與派生助手模型之間的差距卻在持續擴大。後訓練的持續進步正在加劇與人類行為的分歧。

最大的失真出現在語言任務和推理中。研究人員給出了一個合理的解釋：基礎模型本質上是人類語言的模型，因此對於語言處理任務校準良好。後訓練技術（如基於人類反饋的強化學習）將它們推離了原始目標，轉向更使用者友好或規範正確的答案。推理方面也是如此。人類決策受啟發式和系統性偏見的影響，基礎模型顯然捕捉到了這些特徵。而推理訓練則最佳化了邏輯正確的答案，從而覆蓋了行為模擬所需的人類特質。

第二個發現涉及一種廣泛使用的技術：向語言模型提供參與者特定資訊，使其扮演特定角色。在這項研究中，這種方法以訪談形式呈現，在實驗前附加每個人的詳細人口統計資訊。提示中包括年齡、性別、國籍、教育程度、臨床診斷和問卷得分（如果可用）。結果效應幾乎為零。即使將分析限制在發展心理學實驗（其中年齡差異應具有資訊量）中也是如此。早期研究表明，角色提示可以在群體水平上產生類似人類的響應分佈，但新研究質疑它們是否能真正預測個體行為，還是僅僅在表面上看似合理。

作者將他們的發現視為一個已知問題的變體：針對特定目標的額外訓練可能會削弱預訓練中獲得的能力。為了測試這是否是一個硬性限制，他們考察了Centaur——一個專門在部分行為資料上微調的模型。Centaur在未參與訓練的新任務上也表現出與人類行為更高的一致性。因此，額外訓練確實有幫助，但僅當它針對行為建模而非邏輯正確性時。

對於研究實踐而言，結論很明確：方便易用的助手模型並非行為模擬的最佳選擇。研究人員建議使用原始基礎模型或專門針對行為模擬訓練的變體。程式碼和資料可在Hugging Face和GitHub上獲取。

聊天機器人模型作為數字測試物件的缺陷並不新鮮。最近對九個開源語言模型的研究發現，最佳化更擬人化的輸出會以犧牲事實準確性為代價，並且一個分類器能以70%至80%的準確率識別AI回應。角色技巧的效果也比預期差。另一項研究發現，模型幾乎無法按命令扮演弱或強的學習者，其命中率變化不到一個百分點。而在推理方面，深度差距仍然存在：對超過17萬個推理軌跡的分析表明，推理模型的思維方式與人類不同，陷入了一種順序自動駕駛模式。